





Aurelien Ge&ron 著 


王 静 源 贾 玮 边 鞠 印 俊 涛 译 


O’Reilly 精 品 图 书 系 列 
机 器 学 习 实 战 ， 基于 Scikit-Learn 和 TensorFlow 
Hands-On Machine Learning with Scikit-Learn and 


TensorFlow: Concepts, Tools, and Techniques for 
Building Intelligent Systems 


(法 ) 奥 雷 利安 : 杰 龙 著 

王 静 源 ”等 译 

ISBN: 978-7-111-60302-3 

本 书 纸 版 由 机 械 工业 出 版 社 于 2018 年 出 版 ， 电 子 版 由 华章 分 社 〈( 北 京华 
半 图 文 信息 有 限 公 司 ， 北 京 奥 维 博世 图 书 发 行 有 限 公 司 〉 在 中 华人 民 共 
和 国境 内 (不 包括 香港 、 澳 门 特别 行政 区 及 台湾 地 区 〉 制 作 与 友 行 。 
版 权 所 有 ， 侵 权 必 完 


客服 热线 : + 86-10-68995265 








客服 信箱 : service@bbbvip.com 
官方 网 址 : www.hzmedia.com.cn 
新 浪 微 博 @ 华 章 数 媒 


微 信 公众 号 华章 电子 书 〈 微 信号 : hzebook ) 





目 永 


O"Reilly Media，Inc. 介 绍 


六 者 导 
前 言 
A 曰 尺 二 | 其 -看 
第 1 音 BE 站 用 嘛 
人 效 四 机 De 习 
、 yy DH 入 区 
ge 系 综 的 种 类 
RS 站 
测试 与 验证 








党 汶 别 分 类 中 
错误 分 析 
多 标签 分 类 


A 
练 二 
第 4 音 ”训练 模型 
线性 回 | 


项 | 


= 和 
正则 线性 模型 
练习 






线性 SVM 分 类 
了 E 线 性 SVM 分 类 


SVM 回 | 
工作 原 于 
训练 目标 
练习 


第 6 音 了 和 全 > 

决策 树 训练 和 可 视 化 
做 出 预测 

估算 类 别 概 这 
CART 训 练 算法 
计算 复杂 度 





bagging 和 Dastin 
Random _Patches 和 随机 子 空 间 
随机 森林 











生生 人 -2 
9 


第 9 曹 ” 运 和 erisgiilow 


创建 一 个 计算 图 并 在 会 话 中 执行 





TensorFlow 中 的 线性 回归 

实现 梯度 下 降 

给 训练 息 法 提供 类 

保存 和 恢复 模型 

用 TensorBoard 来 可 视 化 图 和 训练 曲线 
命名 作用 域 





Sy 
练习 








TensorFlow 中 的 基本 RNN 
训练 RNN 











附录 EE 其 他 流行 所 习 
作者 介绍 
封面 介 


O:Reilly Media，Inc. 介 绍 


O’Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋 
势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 为 技 
0 
2 扬 光 大 。 


O’Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创建 第 一 个 商业 
网 站 CGNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运 
动 以 此 命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 革 命 的 主要 先锋 ; 公司 一 
如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O?”Reilly 的 会 议和 峰会 集 
聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革 
命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O’Reilly 现 在 还 将 先锋 专家 
的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服 务 或 者 





























面授 课程 ， 每 一 项 O'Reily 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信 
息 是 激发 创新 的 力量 。 
业界 评论 
“OReilly Radar 博 客 有 口 丝 碑 。” 
Wired 


“O’Reilly 和 凭借 一 系列 (真希 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 
百 万 美元 的 业务 。” 


Business 2.0 


“O’”Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 





一 一 CRN 
“一 本 O’Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 


Irish Times 











“Tim 是 位 特 立 独行 的 两 人， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 
且 切 实地 按照 Yogi Berra 的 建议 去 做 了 :“ 如 宁 你 在 路 上 遇 到 岔路 口 ， 走 
小 路 《岔路 ) 。 "回顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 
古 一 内 即 逝 的 机 会 ， 尺 管 大 路 也 不 错 。” 


Linux Journal 





译 者 序 


随 着 AlphaGo 在 人 机 大 战 中 一 举 成 名 ， 关 于 机 器 学 习 的 研究 开始 三 
受 关 注 ， 数 据 科 学 家 也 一 跃 成 为 "21 世纪 最 性 感 的 职业 ”。 关 于 机 器 学 习 
和 神经 网 络 的 广泛 应 用 虽然 兴起 不 入， 但 是 对 这 两 个 密切 关联 的 领域 的 
研究 其 实 已 经 持续 了 好 几 十 年 ， 早 已 形成 了 系统 化 的 知识 体系 。 对 于 想 
要 路 入 机 器 学 习 领 域 的 初学 者 而 言 ， 理 论 知 识 的 获取 并 非 难事 。 


本 书 作 者 Aurk&lien ”Géron 曾 经 是 谷歌 工程 师 ， 在 2013 年 至 2016 年 ， 
主导 了 YouTube 的 视频 分 类 工程 ， 拥 有 丰富 的 机 器 学 习 项 目 经 验 。 作 者 
的 写作 初衷 是 希望 从 实践 出 发 ， 手 把 手 地 帮助 开发 者 从 零 开始 搭建 起 一 
个 神经 网 络 。 这 也 正 构 成 了 本 书 区 别 于 其 他 机 器 学 习 教 程 的 最 重要 的 特 
质 一 一 不 再 偏向 于 原理 研究 的 角度 ， 而 是 从 开发 者 的 实践 角度 出 发 ， 在 
动手 写 代码 的 过 程 中 ， 循 序 渐进 地 了 解 机 器 学 习 的 理论 知识 和 工具 的 实 
践 技巧 。 对 于 想 要 快速 上 手机 器 学 习 的 开发 者 来 说 ， 本 书 不 窗 为 一 个 非 
常 值得 尝试 的 起 点 项 目 。 


本 书 主 要 分 为 两 个 部 分 。 第 一 部 分 为 第 1 一 8 章 ， 涵 新 机 器 学 习 的 基 
础 理论 知识 和 基本 算法 从 线性 回归 到 随机 森林 等 ， 帮 助 读 者 掌握 
Scikit-Learn 的 常用 方法 ， 第 二 部 分 为 第 9 一 16 章 ， 探 讨 深度 学 习 和 第 用 
框架 TensorFlow， 一 步 一 个 脚印 地 带领 读者 使 用 TensorFlow 搭 建 和 训练 
深度 神经 网 络 ， 以 及 卷 积 神经 网 络 。 


书 中 涉及 不 少数 学 公式 ， 作 者 对 抽象 的 公式 背后 的 含义 也 都 一 一 做 
出 了 阐释 ， 因 此 即便 是 对 数学 不 敏感 的 初学 者 ， 也 同样 能 够 理解 机 器 学 
习 任务 的 实质 。 


书 中 所 涉及 的 专业 术语 与 概念 较 多 ， 部 分 概念 及 术语 尚 无 公认 的 中 
文 译 法 ， 因 此 我 们 较 多 地 参考 了 网 络 上 和 研究 论文 中 常用 的 译 法 ， 若 有 
不 适合 读者 朋友 的 术语 ， 可 根据 原 词 确认 其 原始 词 意 。 在 翻译 过 程 中 虽 
然 力求 准确 地 反映 原著 内 容 ， 但 由 于 译 者 水 平 有 限 ， 如 有 错漏 之 处 ， 奶 
请 读者 批评 指正 。 

本 书 译 者 均 来 自 于 ThoughtWworks 咨 询 公 司 ， 王 静 源 翻译 了 第 1 一 8 
章 ， 页 玮 翻译 了 第 13~~16 章 ， 边 欧 翻 译 了 第 11 章 和 第 12 半 ， 印 俊 涛 翻译 
了 第 9 章 和 第 10 章 ， 并 对 全 书 译文 进行 校对 和 最 后 定稿 。 






































最 后 要 感谢 华章 公司 的 编辑 ， 他 们 为 保证 本 书 的 质量 做 出 了 大 量 的 
编辑 和 校正 工作 ， 在 此 深 表 谢意 。 





译 者 


2018 年 3 月 


机 器 学 习 浪 淹 


2006 年 ，Geoffrey Hinton 等 人 发 表 了 一 篇 论文 出 ， 展 示 了 如 何 训练 
能 够 高 精度 (>98% ) 识别 手写 数字 的 深度 神经 网 络 。 他 们 将 这 种 技术 
称 为 “深度 学 习 ”。 在 当时 ， 深 度 神 经 网 络 的 训练 被 普遍 认为 是 不 可 能 
的 。 这 篇 论文 乌 重 新 激 起 了 科学 界 的 兴趣 ， 不 久之 后 ， 许 多 新 的 论文 展 
示 了 深度 学 习 不 仅 是 可 行 的， 而 且 〈 在 超级 计算 能 力 和 大 数据 的 帮助 
下 ) 能 够 取得 令 人 瞩目 的 成 就 ， 是 其 他 机 器 学 习 技 术 所 难以 企及 的 。 这 
种 热情 很 快 扩展 到 机 器 学 习 相 关 的 许多 其 他 领域 。 

历经 十 年 的 快速 发 展 ， 机 器 学 习 已 经 征服 了 整个 行业 。 它 已 经 成 为 
众多 高 科技 产品 中 的 黑 科 技 核心 : 对 你 的 网 络 搜索 结果 进行 排名 ， 实 现 
智能 手机 的 语音 识别 ， 为 你 推荐 视频 ， 打 败 世 界 围棋 冠军 。 在 你 意识 到 
之 前 ， 它 甚至 会 驾驶 你 的 汽车 。 
你 的 项 目 中 的 机 器 学 习 


你 已 对 机 器 学 习 充 满 了 兴趣 ， 并 迫 不 及 符 想 要 投入 其 中 了 吧 ? 

















可 能 你 想 让 自己 制作 的 机 器 人 有 思想 ? 让 它 可 以 识别 人 脸 ? 或 者 学 
会 走路 ? 
或 者 你 们 公司 有 大 量 的 数据 (用 户 日 志 、 财 务 数据 、 产 品 数据 、 机 


需 传 感 句 数据 、 热 线 数据 、HR 报 告 等 ) ， 如 果 知 道 去 哪儿 找 ， 你 会 控 
掘 出 一 些 隐 藏 的 宝石 ， 比 如 : 


- 细 分 客户 群 ， 并 为 每 个 群体 设置 最 佳 的 市 场 策略 
基于 相似 度 来 为 每 个 顾客 推荐 产品 

检测 哪些 交易 最 有 可 能 是 欺诈 性 的 
预测 下 一 年 的 收入 





:其 他 (https:/www.kaggle.com/wiki/DataScienceUseCases) 


不 论 原 因 是 什么 ， 你 已 经 下 定 决 心 来 学 习 机 器 学 习 并 在 上 自己 的 项 目 
中 实现 它 。 


目标 和 方法 


本 书 假设 你 对 机 器 学 习 几 乎 一 无 所 知 。 本 书 的 目标 是 提供 给 你 实现 
从 数据 中 学 习 的 程序 时 所 需 的 概念 、 直 沉 和 工具 。 


我 们 会 履 兰 很 多 技术 ， 从 最 简单 、 最 向 用 的 《比如 线性 回归 ) 到 一 
些 经 党 能 必 得 比赛 的 深度 学 习 技术 。 


我 们 将 使 用 真正 生产 就 绪 的 Python 框架 中 的 算法 ， 而 不 是 实现 每 个 
算法 的 玩具 版 本 : 


Scikit-Learn (http://scikit-learn.org/〉 非 常 易 用 ， 而 且 已 经 很 高 效 地 
实现 了 机 器 学 习 中 的 众多 算法 ， 所 以 它 是 学 习 机 器 学 习 的 一 个 很 好 的 着 
手 点 。 


“TensorFlow (http:/tensorflow.org/) 是 使 用 数据 流 图 进行 分 布 式 数 
值 计 算 的 更 复杂 的 库 。 通 过 在 数 千 个 多 GPU 服务 器 上 分 配 计算 ， 可 以 有 
效 地 训练 和 运行 非常 大 的 神经 网 络 。TensorFlow 由 Google 创 建 ， 用 以 文 
持 其 大 型 机 器 学 习 应 用 程序 。 它 已 于 2015 年 11 月 开放 源 代码 。 


本 书 更 倾向 于 动手 的 方式 ， 通 过 可 以 正常 运行 的 具体 实例 和 非常 少 
的 理论 的 方式 来 帮助 读者 逐步 建立 对 机 器 学 习 的 直觉 。 虽 然 你 可 以 在 不 
上 机 的 情况 下 阅读 本 书 ， 但 我 们 强烈 建议 你 通过 在 线 运 行 Jupyter 笔 记 本 
中 代码 示例 (https://github.com/ageron/handson-ml)〉 的 方式 学 习 。 


学 快 条 件 


本 书 假设 你 有 一 定 的 Python 编程 经 验 ， 而 且 熟 悉 Python 中 主流 的 科 
学 计算 库 ， 例 如 Numpy (http:/numpy.org/) 、 
Pandas (http:/pandas.pydata.org/) ， 还 有 
Matplotlib (http://matplotlib.org/) 。 


男 外 ， 如 末 你 想 要 深入 理解 低层 的 原理 ， 则 需要 大 学 水 平 的 数学 知 
识 《 微 积分 、 线 性 代数 、 概 紊 论 和 统计 学 )〉。 




















如 果 你 还 不 会 Python，http:/learnpython.org/ 是 一 个 很 好 的 起 点 。 官 
方 的 Python 教程 〈https:/docs.python.org/3/mutorial/) 也 不 错 。 


如 果 你 从 没有 用 过 Jupyter， 第 2 章 将 指导 你 完成 安装 和 基本 操作 。 
它 是 你 工具 箱 中 一 个 很 好 的 工具 。 


如 果 你 不 熟悉 Python 的 科学 库 ，Jupyter 笔 记 本 里 包括 了 一 些 教程 ， 
另外 其 中 还 有 一 个 关于 线性 代数 的 快速 数学 教程 。 


学 习 路 线 图 
本 书 由 两 部 分 组 成 。 第 一 部 分 (机 器 学 习 基础 〉 由 下 列 主题 组 成 : 


机 器 学 习 是 什么 ? 它 想 要 解决 的 问题 是 什么 ? 机 器 学 习 系 统 中 ， 
主要 的 分 类 和 基础 概念 有 哪些 ? 


-一 个 典型 的 机 器 学 习 项 目 由 哪些 步骤 组 成 ? 

- 拟 合 数据 进行 学 习 。 

“优化 成 本 函数 。 

处理 、 清 洗 和 准备 数据 。 

-特征 选择 及 特征 工程 。 

选择 模型 并 使 用 交叉 验证 来 调整 超 参 数 。 

机 器 学 习 的 主要 挑战 ， 拟 合 不 足 和 过 上 度 拟 合 ( 偏 差 /方差 权衡 〉。 
降低 训练 数据 的 维度 以 对 抗 维度 的 灾难 。 


最 第 见 的 学 习 算 法 : 线性 回归 和 多 项 式 回 归 、 逻 辑 回归 、k- 近 邻 、 
文 持 癌 量 机 、 决 集 树 、 随 机 森林 和 集成 算法 。 


第 二 部 分 (神经 网 络 和 深度 学 习 〉 由 下 列 主题 组 成 : 
“神经 网 络 是 什么 ?它们 擅长 处 理 哪些 问题 ? 











.使 用 TensorFlow 构 建 和 训练 神经 网 络 。 


-最 重要 的 神经 网 络 架 构 : 前 馈 神 经 网 络 、 卷 积 网 络 、 递 归 网 络 、 
长 期 短期 记忆 (LSTM) 网 络 和 自动 编码 器 。 


训练 深度 神经 网 络 的 技术 。 
.为 海量 数据 集 进 行 扩 容 。 
强化 学 习 。 


第 一 部 分 基本 上 都 基于 Scikit-Learn， 而 第 二 部 分 则 基于 
TensorFlow。 








外 人 不 要 太 急于 跌 入 深水 区 ， 深度 学 习 无 疑 是 机 器 学 习 中 最 令 人 兴 
奋 的 领域 之 一 ， 你 应 该 首先 掌握 基础 知识 。 而 且 ， 大 多 数 问题 可 以 用 较 
简单 的 技术 很 好 地 解决 ， 如 随机 森林 和 集成 算法 《在 第 一 部 分 讨论 ) 。 
如 果 你 拥有 足够 的 数据 、 计 算 能 力 和 耐心 ， 深 度 学 习 非 党 适合 复杂 的 问 
题 ， 如 图 像 识别 、 语 音 识 别 和 目 然 语言 处 理 。 


其 他 资源 


关于 机 器 学 习 的 资料 有 很 多 ，Andrew ”Ng 在 Coursera 上 的 机 器 学 习 
读 程 〈https:/www.coursera.org/learn/machine-learning/) 和 Geoffrey 
Hinton 的 神经 网 络 和 深度 学 习 课 程 

(https://www.coursera.org/course/neuralnets ) 都 很 棒 ， 虽 然 学 习 起 来 都 
需要 投入 大 量 的 时 间 〈 比 如 几 个 月 ) 。 


还 有 许多 关于 机 器 学 习 的 有 趣 网 站 ， 当 然 还 包括 很 出 色 的 Scikit- 
Learn 用 户 指南 (http:/scikit-learn.org/stablemuser_guide.html) 。 也 可 以 试 
试 Dataquest (https://www.dataquest.io/) ， 它 提供 了 非常 好 的 交互 式 教 
程 ， 还 有 一 些 机 器 学 习 的 博客 ， 如 Quora (http:/goo.gUGwtU3A ) 上 列 
出 的 。 最 后 ， 深 度 学 习 网 站 有 一 个 很 好 的 资源 列表 
(http://deeplearning.net/) 便于 你 学 习 更 多 知识 。 


当然 ， 还 有 很 多 关于 机 器 学 习 的 入 门 书 籍 ， 具 体 来 说 : 














.Joel Grus 若 的 Data Science from Scratch (O?Reilly 出 版 ) 。 本 书 介 
绍 了 机 器 学 习 的 基础 知识 ， 并 用 纯 Python 实 现 了 一 些 主要 算法 ( 顾 名 思 
义 ， 从 零 开 始 ) 。 


:Stephen ”Marsland 车 的 Machine Learning: An Algorithmic 
Perspective (Chapman & Hall 出 版 ) 。 本 书 是 对 机 器 学 习 的 一 个 很 好 的 
介绍 ， 涵 盖 了 广泛 的 主题 ， 书 中 的 实例 使 用 了 Python 代码 《〈 也 是 从 零 开 
始 ， 但 使 用 NumPy) 。 


.Sebastian Raschka 车 的 Python Machine Learning (Packt 出 版 ) 。 本 
书 也 是 对 机 器 学 习 的 一 个 很 好 的 介绍 ， 它 使 用 了 一 些 Python 开源 库 〈 如 
Pylearn 2 和 Theano) 。 


“Yaser S.Abu-Mostafa、Malik Magdon-Ismail 和 Hsuan-Tien Lin 合 著 
的 ，Learning from Data (AMLBook 出 版 ”。 对 于 机 器 学 习 来 说 ， 这 是 
一 个 相当 理论 化 的 方法 ， 这 本 书 提供 了 深刻 的 见解 ， 特 别 是 对 偏差 / 方 
差 权 衡 部 分 〈 见 第 4 章 ) 。 





:Stuart ”Russell 和 Peter ”Norvig 合 车 的 A ”Modern “Approach， 
3rd (Pearson 出 版 )。 这 是 一 本 很 好 的 (很 厚 的 ) 书 ， 涵 盖 了 包括 机 器 
学 习 在 内 的 大 量 主题 ， 可 以 帮助 我 们 正确 地 看 待 和 理解 机 器 学 习 。 

最 后 还 有 一 个 非常 好 的 学 习 方 式 是 加 入 机 器 学 习 竞赛 网 站 ， 比 如 
Kaggle.com。 它 允许 你 通过 解决 现实 世界 中 的 问题 来 练习 你 的 技能 ， 而 
且 有 很 多 顶级 的 机 器 学 习 专 家 会 帮助 你 。 
排版 约定 

本 书 中 使 用 以 下 排版 约定 : 

和 斜体 

指示 新 的 术语 、 网 址 、 电 子 邮 件 地 址 、 文 件 名 和 文件 扩展 名 。 


等 宽 字 体 (Constant width ) 


用 于 程序 清单 ， 以 及 段落 内 引用 的 程序 元 素 ， 如 变量 或 函数 名 称 、 
数据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 和 关键 字 。 








等 宽 黑 体 (Constant width bold ) 
显示 应 由 用 户 输 入 的 命令 或 其 他 文本 。 
等 宽 斜 体 (Constant width italic ) 


显示 应 由 用 户 提 供 的 值 或 由 上 下 文 确定 的 值 来 将 换 的 文本 。 





全 表示 提示 或 者 建议 。 


MAA 人 说 明 


从 人 表示 营 千 


使 用 代码 示例 


补充 材料 《代码 示例 、 练 习题 等 ) 可 
在 https://github.com/ageron/handson-ml 下 载 。 


这 本 书 可 以 帮助 你 完成 工作 。 一 般 来 说 ， 本 书 提供 的 示例 代码 可 以 
在 程序 和 文档 中 使 用 。 除 非 你 复制 了 大 部 分 代码 ， 人 否则 无 须 联 系 我 们 获 
得 许可 。 例 如 ， 编 写 使 用 本 书 中 几 个 代码 块 的 程序 不 需要 许可 。 不 过 销 
售 或 分 发 O'Reily 书 籍 中 的 示例 CD-ROM 需 要 获得 许可 。 引 用 本 书 的 示 
例 代 码 来 回答 问题 不 需要 许可 。 将 本 书 中 的 大 量 示例 代码 整合 到 产品 文 
档 中 则 需要 获得 许可 。 


我 们 赞赏 但 不 要 求 归 属 权 声明 。 归 属 权 声明 通常 包括 书 名 、 作 者 、 
出 版 者 和 ISBN。 例 如 : “Hands-On Machine Learning with Scikit-Learn 
and TensorFlow by Aureélien Geéron (O’Reilly) .Copyright 2017 
Aureélien Geéron, 978-1-491-96229-9.”。 


如 果 你 觉得 你 对 示例 代码 的 使 用 超出 上 述 许可 范围 ， 可 以 随时 通过 
<permissions@oreilly.com> 联 系 我 们 。 


Safari 在 线 电 子 书 
































> 2afarl Safari( 以 前 的 Safari Books Online) 是 一 个 面向 企业 、 
政府 、 教 育 者 和 个 人 的 基于 会 员 的 培训 和 参考 平台 。 


书店 的 会 员 可 以 从 几 百 家 出 版 社 的 数据 库 中 搜索 并 获得 数 干 种 图 
书 、 培 训 视 频 、 正 式 出 版 前 的 手稿 等 资料 ， 这 些 出 版 社 包 括 O’Reilly 
Media、 Prentice Hall Professional、Addison-Wesley Professional、 
Microsoft Press、 Sams、 Que、Peachpit Press、Focal Press、 Cisco Press、 
John Wiley & Sons、 Syngress、 Morgan Kaufmann、 IBM Redbooks、 
Packt、Adobe Press、 FT Press、 Apress、Manning、New Riders、 
McGraw-Hill、Jones & Bartlett、Course Technology 等 。 


要 了 解 Safari 网 上 书店 的 更 多 信息 ， 请 访问 我 们 的 网 站 
(https:/www.safaribooksonline.com ) 。 


如 何 联系 我 们 
美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 写成 饮 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 〈 北 京 ) 有 限 公司 


我 们 广 夺 刷 设 并 了 专门 的 网 页 页 ， 其 中 有 勘误 表 、 程 序 示例 以 及 其 他 


有 关 人 信息， 网 址 是 http://bit.ly/hands-on-machine-learning-with-scikit-learn- 
ai 


对 本 书 的 意见 或 询问 技术 问题 ， 请 发 邮件 至 


bookquestions(Ooreilly.com 。 


更 多 与 O"Reily 有 关 的 图 书 、 课 程 、 会 议 、 新 闻 等 信息 ， 请 访问 我 














们 的 网 站 http:/www.oreilly.com 。 
读者 可 在 Facebook 上 关注 我 们 : http://facebook.com/oreilly。 
读者 可 在 Twitter 上 关注 我 们 : http://twitter.com/oreillymedia。 


读者 可 在 YouTube 上 关注 我 
们 : http:/www.youtube.comyoreillymedia 。 
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有 用 的 建议 。 我 还 要 感谢 我 的 岳父 兼 前 数学 老师 Michel Tessier， 他 现在 
是 Anton (Chekhov 的 一 名 优秀 翻译 ， 帮 助 我 解决 了 本 书 中 的 一 些 数学 标 
记 和 符号 的 问题 ， 并 审 校 了 线性 代数 Jupyter 笔 记 本 。 
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[1] 详 见 Hinton 的 主页 http://www.cs.toronto.edu/~hinton/。 
[2] 虽然 Yann Lecun 的 深 卷 积 神经 网 络 自 20 世 纪 90 年 代 以 来 在 图 像 识别 
方面 运作 民 好 ， 但 这 并 非 一 般 用 途 。 














往生 


第 一 部 分 “机 器 学 习 基础 
第 l 章 ”机 器 学 习 概 览 


大 多 数 人 听 到 “机 器 学 习 " 这 个 词 ， 脑 海中 会 浮现 出 一 个 机 器 人 : 可 
能 是 一 个 可 靠 的 管家 ， 也 可 能 是 一 个 致命 的 终结 者 形象 ， 这 取决 于 你 问 
的 对 象 是 谁 。 但 是 ， 机 器 学 习 已 经 不 仅仅 只 是 一 个 未 来 约 想 了 ， 它 已 经 
存在 了 。 事 实 上， 在 东 些 专门 领域 的 应 用 中 ， 例 如 光学 字符 识别 
(OCR) ， 它 甚至 已 经 存在 了 几 十 年 。 但 是 ， 第 一 个 真正 成 为 主流 并 改 
善 了 亿 万 人 民生 活 的 机 器 学 习 应 用 ， 是 20 世 纪 90 年 代 席 卷 了 全 世界 的 垃 
圾 邮件 过 滤器 。 它 不 算是 一 个 有 目 我 意识 的 天 网 〈Skynet) ， 但 从 技术 
上 来 讲 ， 它 确实 有 资格 称 为 一 种 机 器 学 习 〈 事 实 上 它 也 学 得 很 好 ， 我 们 
几乎 不 需要 再 手动 标记 垃圾 邮件 了 ) 。 随 后 便 是 数 以 百 计 的 机 器 学 习 应 
用 ， 默 默 地 为 那些 我 们 定期 使 用 的 产品 和 功能 提供 支持 ， 从 更 好 的 推荐 
系统 到 语音 搜索 。 


机 器 学 习 始 于 何 处 ， 又 将 终于 何方 ? 对 机 器 而 言 ， 学 习 到 压 意 味 关 
什么 ? 如 末 我 下 载 一 份 维基 百科 的 副本 在 我 的 电脑 上 ， 它 整 真 的 学 到 了 
么 ?会 突然 变 得 更 聪明 吗 ? 在 本 章 中 ， 我 们 将 首先 澄清 什么 是 机 器 学 
习 ， 以 及 我 们 为 什么 要 使 用 它 。 


在 我 们 开始 探索 机 器 学 习 的 新 大 陆 之 前 ， 先 来 看 看 地 图 ， 了 解 一 下 
主要 地 区 和 最 显著 的 地 标 : 监督 式 与 无 监督 式 学 习 ， 在 线 学 习 与 批量 学 
习 ， 基 于 实例 的 与 基于 模型 的 学 习 。 然 后 ， 我 们 将 介绍 一 个 典型 的 机 器 
学 习 项 目的 工作 流程 ， 讨 论 你 可 能 会 面临 的 主要 挑战 ， 并 介绍 如 何 对 机 
锅 学 习 系 统 进行 评估 和 微调 。 


本 章 会 介绍 许多 基本 的 概念 (和 术语 ) ， 每 一 个 数据 科学 家 都 应 该 
对 此 烂熟 于 心 。 本 章 是 一 个 高 度 概括 性 的 介绍 唯一 没有 太 多 代码 的 章 
节 ) ， 所 述 知 识 也 都 很 简单 ， 但 是 在 你 阅读 本 书 的 其 余部 分 之 前 ， 一 定 
要 确保 清晰 和 彻 地 理解 了 本 章 的 内 容 。 所 以 ， 拿 上 一 本 咖啡， 让 我 们 开 
全 吧 ! 












































多 如 果 你 已 经 知道 所 有 机 器 学 习 的 基础 知识 ， 可 以 直接 跳 到 第 2 
草 。 如 果 不 确 定 ， 可 以 尝试 回答 本 章 末 尾 列 出 的 所 有 问题 ， 然 后 再 继 
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Bees 


O 


什么 是 机 器 学 习 


S00 0 0 
艺术 ) 。 


这 里 有 一 个 略微 笼统 的 定义 : 

机 需 学 习 研 究 如 何 让 计算 机 不 需要 明确 的 程序 也 能 具备 学 习 能 
一 一 Arthur Samuel, 1959 

还 有 一 个 更 偏 工 程 化 的 定义 : 


一 个 计算 机 程序 在 完成 任务 T 之 后 ， 获 得 经 验 E， 其 表现 效果 为 P， 
如 果 任 务 IT 的 性 能 表现 ， 也 就 是 用 以 衡量 的 P， 随 独 E 的 增加 而 增加 ， 可 
以 称 其 为 学 习 。 


Tom Mitchell，1997 


举例 来 说 ， 垃 圾 邮件 过 滤器 就 是 一 个 机 器 学 习 的 程序 ， 它 通过 垃圾 
邮件 《比如 用 户 手动 标记 的 垃圾 邮件 ) 以 及 常规 邮件 〈 非 垃圾 邮件 ) 的 
示例 ， 来 学 习 标记 垃圾 邮件 。 系 统 用 来 学 习 的 这 些 示例 ， 我 们 称 之 为 训 
练 集 。 每 一 个 训练 示例 称 为 训练 实例 或 者 是 训练 样本 。 在 本 例 中 ， 任 务 
T 就 是 给 新 邮件 标记 垃圾 邮件 ， 经 验 E 则 是 训练 数据 ， 那 么 衡量 性 能 
现 的 指标 P 则 需要 我 们 来 定义 ， 例 如 ， 我 们 可 以 使 用 被 正确 分 类 的 邮件 
的 比率 末 衔 量 。 这 个 特殊 的 性 能 全 量 标准 称 为 精度 ， 经 党 用 于 条 量 分 类 
王 务 。 


所 以 ， 如 末 你 只 是 下 载 了 维基 百科 的 副本 ， 你 的 电脑 得 到 了 更 多 的 
数据 ， 这 并 不 会 给 任何 任务 市 来 提升 。 因 此 ， 它 不 是 机 器 学 习 。 











为 什么 要 使 用 机 器 学 习 


试想 一 下 ， 如 果 让 你 使 用 传统 编程 技术 来 编写 一 个 垃圾 邮件 过 滤 
器 ， 你 会 怎么 做 〈 见 图 1-1) : 


1. 你 会 看 看 垃圾 邮件 通常 长 什么 样 。 你 可 能 会 注意 到 茶 些 单词 或 用 

语 ( 比 如 “4U”“ 信 用 卡 * 免 费 ” 以 及 “神奇 的 ”等 字眼 〉 在 这 类 主题 中 出 现 

0 你 和 邮件 的 正文 中 发 现 一 些 其 他 
直 收 屏 。 


2. 你 会 为 你 友 现 的 每 个 模式 编写 检测 算法 ， 如 果 检 测 到 一 定数 量 的 
类 模式 ， 你 的 程序 会 将 其 标记 为 垃圾 邮件 。 


3. 你 还 要 测试 这 个 程序 ， 不 断 地 重复 过 程 1 和 过 程 2， 直 到 它 变 得 足 
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图 1-1: 传统 编程 方法 
而 这 些 问 题 都 并 不 简单 ， 因 此 你 的 程序 很 可 能 变 成 一 长 串 的 复杂 规 


则 一 一 很 难 维护 。 


相 比 之 下 ， 基 于 机 器 学 习 技术 的 垃圾 邮件 过 滤器 通过 对 比 垃圾 邮件 
示例 和 第 规 邮 件 示例 ， 目 动 检 测 垃 圾 邮件 中 异常 频繁 的 单词 模式 ， 目 动 
学 习 哪 些 单 词 和 短语 可 以 作为 垃圾 邮件 的 预测 因素 〈 见 图 1-2) 。 这 样 
的 程序 要 简短 得 多 ， 易 于 维护 ， 并 且 可 能 还 更 准确 。 
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图 1-2: 机 器 学 习 解 决 方法 
此 外 ， 如 果 垃 圾 邮件 发 送 者 注意 到 所 有 包含 “4U” 字 眼 的 电子 邮件 都 





被 阻止 ， 他 们 很 可 能 会 开始 写成 *For U”。 使 用 传统 编程 技术 的 垃圾 邮 
件 过 滤器 需要 更 新 才能 标记 “For U” 的 邮件 。 而 如 果 垃 圾 邮件 发 送 者 持 
续 围 绕 着 你 的 过 滤器 来 工作 ， 那 你 将 需要 永 无 止境 地 续 写 新 的 过 洲 规 
则 。 


相 比 之 下 ， 基 于 机 器 学 习 技 术 的 垃圾 邮件 过 滤器 可 以 自动 注意 
到 “For U” 开 始 在 用 户 标 记 的 垃圾 邮件 中 出 现 得 异常 频繁 ， 不 需要 人 为 
于 预 ， 就 会 开始 自动 标记 它们 〈 见 图 1-3) 。 















评 信 解 决 方案 


训练 机 器 
学 习 算 法 


图 1-3: 自动 适应 变化 


机 器 学 习 的 另 一 个 内 光 点 ， 是 针对 那些 使 用 传统 方法 太 过 复杂 
甚至 根本 不 存在 已 知 算法 的 问题 。 例 如 语音 识别 : 假如 你 想 写 一 个 能 够 
区 分 出 “一 ”和 “二 ”的 程序 。 你 会 想到 , “二 ”(two) 的 读音 是 以 一 个 高 音 
C“T”) 开始 ， 所 以 你 可 以 硬 编 码 出 一 个 测量 高 音 强度 的 算法 ， 然 后 用 
它 来 区 分 “一 ”和 “二 ”。 但 是 想 想 数 以 百 万 计 的 不 同人 群 所 说 的 成 十 上 万 
的 词句 ， 加 之 其 所 处 的 吵闹 环境 ， 以 及 所 使 用 的 几 十 种 不 同 的 语言 ， 很 
显然 ， 这 种 拉 术 不 可 能 得 以 扩展 。 运 今 为 止 ， 最 好 的 解决 方案 是 写 一 个 
能 够 自己 学 习 的 算法 ， 然 后 针对 每 个 字 给 它 提 供 许多 录 首 示例 。 


最 后 ， 机 融 学 习 还 可 以 帮助 人 类 学 习 《〈 见 图 1-4) : 通过 检视 机 器 
学 习 算 法 以 了 解 它们 学 到 了 什么 《尽管 对 于 茶 些 算法 来 次， 这 可 能 挺 束 
手 ) 。 例 如 ， 一 旦 垃圾 邮件 过 滤器 经 过 了 足够 多 的 训练 ， 人们 可 以 很 轻 
松 地 检视 它 ， 碍 看 它 认 为 的 可 以 作为 垃圾 邮件 最 佳 预 判 因子 的 单词 及 单 
词组 合 的 列表 。 有 时 候 ， 这 可 能 会 揭示 出 一 些 人 类 未 曾 意 识 到 的 关联 性 
或 是 新 趋势 ， 从 而 帮助 我 们 更 好 地 理解 问题 。 


应 用 机 口 学习 技术 来 挖掘 海量 数据 ， 可 以 帮助 我 们 发 现 那些 此 前 并 
非 立 见 端倪 的 模式 。 这 个 过 程 称 为 数据 挖掘 。 
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图 1-4: 机 器 学 习 可 以 帮助 人 类 学 习 
简 而 言 之 ， 机 器 学 习 的 伟大 在 于 : 


“对 于 那些 现 有 解决 方案 需要 大 量 手动 调整 或 者 是 规则 列表 超 长 的 
问题 : 通过 一 个 机 器 学 习 的 算法 就 可 以 简化 代码 ， 并 且 提 升 执行 表现 。 


.对 于 那些 传统 技术 手段 根本 无 法 解雇 的 复杂 问题 : 通过 最 好 的 机 
句 学 习 技术 可 以 找到 一 个 解决 方案 。 


“对 于 环境 波动 : 机 器 学 习 系 统 可 以 适应 新 的 数据 。 
:从 复杂 问题 和 海量 数据 中 获得 洞 见 。 











机 口 学 习 系 统 的 种 其 


现 有 的 机 器 学 习 系 统 种 类 繁多 ， 为 便于 理解 我 们 根据 以 下 内 容 将 它 
们 进行 大 的 分 类 : 

是否 在 人 类 监督 下 训练 〈 监 督 式 学 习 、 无 监督 式 学 习 、 半 监督 式 
学 习 和 强化 学 习 ) 

是 否 可 以 动态 地 进行 增 量 学 习 在线 学 习 和 批量 学 习 ) 


是 简单 地 将 新 的 数据 点 和 已 知 的 数据 点 进行 四 配 ， 还 是 像 科学 家 
那样 ， 对 训练 数据 进行 模式 检测 ， 然 后 建立 一 个 预测 模型 “基于 实例 的 
学 习 和 基于 模型 的 学 习 ) 


这 些 标准 之 间 互 相 并 不 排斥 ， 你 可 以 以 你 喜欢 的 方式 将 其 任意 组 
合 。 例 如 ， 现 在 最 先进 的 垃圾 邮件 过 滤器 可 能 是 使 用 深度 神经 网 络 模 型 
对 垃圾 邮件 和 常规 邮件 进行 训练 ， 完 成 动态 学 习 。 这 使 其 成 为 一 个 在 线 
的 、 基 于 模型 的 、 监 督 式 学 习 系 统 。 

我 们 来 看 看 这 几 个 标准 。 
监督 式 /无 监督 式 学 习 

根据 训练 期 间接 受 的 监督 数量 和 监督 类 型 ， 可 以 将 机 器 学 习 系 统 分 
为 以 下 四 个 主要 类 别 : 监督 式 学 习 、 无 监督 式 学 习 、 半 监督 式 学 习 和 强 
化 学 习 。 


监督 式 学 习 


人 
为 标签 或 标记 《〈 见 图 1-5) 。 


























图 1-5: 监督 式 学 习 中 被 标记 的 训练 集 ( 例 如 ， 垃 圾 邮件 分 类 ) 


分 类 任务 是 一 个 典型 的 监督 式 学 习 任务 。 垃 圾 邮件 过 滤器 就 是 个 很 
好 的 例子 : 通过 大 量 的 电子 邮件 示例 及 其 所 属 的 类 别 〈“ 垃 圾 邮件 或 是 闻 
规 邮 件 ) 进行 训练 ， 然 后 学 习 如 何 对 新 邮件 进行 分 类 。 


还 有 典型 的 任务 ， 是 通过 预测 变量 ， 也 就 是 一 组 给 定 的 特征 《里 
程 、 使 用 年 限 、 品 牌 等 ) 来 预测 一 个 目标 数值 ， 例 如 汽车 的 价格 。 这 种 
类 型 的 任务 称 为 回归 任务 〈 见 图 1-6) 出 。 要 训练 这 样 一 个 系统 ， 需 要 
0 包括 它们 的 预测 变量 和 标签 (也 就 是 它们 的 价 

a 








全 在 机 如 学 习 里 ， 属性 是 一 种 数据 类 型 〈 例 如 “里 程 >) ; 而 特征 
取 诀 于 上 和 下文， 可 能 有 多 个 含义 ， 但 是 通常 状况 下 ， 特 征 意味 着 一 个 属 
性 加 上 其 值 〈 例 如 , “里 程 =15000”) 。 尽 管 如 此 ， 许 多 人 还 是 会 可 交接 
地 使 用 属性 和 特征 这 两 个 名 词 。 











值 是 多 少 ? 
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图 1-6: 回归 任务 
值得 注意 的 是 ， 一 些 回归 算法 也 可 以 用 于 分 类 任务 ， 反 之 亦 然 。 例 
如 ， 逻 辑 回 归 就 和 ”广泛 地 用 于 分 类 ， 因 为 它 可 以 输出 “属于 茶 个 给 定 类 
别 的 概率 ”的 值 〈 例 如 ，209% 的 概率 是 垃圾 邮件 ) 。 
这 里 是 一 些 最 重要 的 监督 式 学 习 的 算法 《会 在 本 书 中 介绍 ) : 


:K- 近 邻 算 法 (k-Nearest Neighbors ) 





线性 回归 (Linear Regression) 

:逻辑 回归 (Logistic Regression ) 

:支持 向 量 机 (Support Vector Machines,，SVM) 

.决策 树 和 随机 森林 (Decision Trees and Random Forests) 
.神经 网 络 (Neural networks) 了 内 


无 监督 式 学 习 








顾名思义 ， 无 监督 式 学 习 的 训练 数据 都 是 未 经 标记 的 〈 见 图 1- 
7) 。 系 统 会 在 没有 老师 的 情况 下 进行 学 习 。 


0 一 些 最 重要 的 无 监督 式 学习 的 算法 〈 我 们 将 会 在 第 8 章 介绍 
第 维 ) : 


聚 类 算法 


-平均 算法 (k-Means) 








.分 层 聚 类 分 析 (Hierarchical Cluster Analysis，HCA) 


:最 大 期 望 算 法 (Expectation Maximization ) 


训练 集 








图 1-7: 无 监督 式 学 习 的 未 标记 训练 集 
:可视化 和 降 维 
` 主 成 分 分 析 (PCA) 
核 主 成 分 分 析 (Kernel PCA) 
:局 部 线性 舱 入 (LLE) 
t 分 布 随 机 近 临 租 入 (t-SNE) 





关联 规则 学 习 
Apriori 
:Eclat 


例如 ,假设 你 现在 拥有 大 量 的 自己 博客 访客 的 数据 。 你 想 通 过 一 个 
聚 类 算法 来 检测 相似 访客 的 分 组 〈 见 图 1-8) 。 你 不 大 可 能 告诉 这 个 算 
法 每 个 访客 属于 哪个 分 组 一 一 希望 算法 目 己 去 寻找 这 种 关联 ， 而 无 须 你 
的 帮助 。 比 如 ， 它 可 能 会 注意 到 40% 的 访客 是 喜欢 漫画 的 男性 ， 并 且 通 
常 在 夜晚 阅读 你 的 博客 ，20% 的 访客 是 年 轻 的 科 约 爱好 者 ， 通 常 在 周末 
访问 ， 等 等 。 如 果 你 使 用 的 是 层次 聚 类 的 算法 ， 它 还 可 以 将 每 组 细 分 为 
更 小 的 组 。 这 可 能 有 助 于 你 针对 不 同 的 分 组 来 发 布 博客 内 容 。 
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图 1-8: 聚 类 


可 视 化 算法 也 是 无 监督 式 学 习 算 法 的 好 例子 : 你 提供 大 量 复杂 的 、 
未 标记 的 数据 ， 得 到 轻松 绘制 而 成 的 2D 或 3D 的 数据 呈现 作为 输出 〈 见 
图 1-9) 。 这 些 算法 会 尽 其 所 能 地 保留 尽量 多 的 结构 〈 例 如 ， 答 试 保持 
让 输入 的 单独 集群 在 可 视 化 中 不 会 被 重 登 ) ， 以 便于 你 理解 这 些 数据 是 
怎么 组 织 的 ， 甚 至 识别 出 一 些 未 知 的 模式 。 








图 1-9: 一 个 使 用 t-SNE 算 法 的 可 视 化 示例 ， 突 显 了 各 种 语义 艇 局 


与 之 相关 的 妨 一 种 任务 是 降 维 ， 降 维 的 目的 是 在 不 丢失 太 多 信息 的 
前 提 下 简化 数据 。 方 法 之 一 是 将 多 个 相关 特征 合并 为 一 个 。 例 如 ， 汽 车 
的 里 程 与 其 使 用 年 限 存在 很 大 的 相关 性 ， 所 以 降 维 算法 会 将 它们 合并 成 
一 个 代表 汽车 磨损 的 特征 。 这 个 过 程 叫 作 特 征 提取 。 








Mia 比较 好 的 做 法 是 ， 先 使 用 降 维 算法 减少 训练 数据 的 维度 ， 
再 将 其 提供 给 另 一 个 机 器 学 习 算法 《例如 监督 式 学习 算 法 ) 。 这 会 使 它 
运行 得 更 快 ， 数 据 占 用 的 磁盘 空间 和 内 存 都 会 更 小 ， 在 茶 些 情况 下 ， 执 
行 性 能 也 会 更 好 。 








另 一 个 很 重要 的 无 监督 式 任务 是 异常 检测 例如 ， 检 测 蜡 常 信 用 
卡 交 易 从 而 防止 欺诈 ， 捕 捉 制造 缺陷 ， 或 者 是 在 提供 数据 给 一 种 机 器 学 
习 算 法 之 前 ， 自 动 从 数据 集中 移 除 异常 值 。 系 统 用 正常 实例 进行 训练 ， 
然后 当 看 到 新 的 实例 时 ， 它 就 可 以 判断 出 这 个 新 实例 看 上 去 是 正常 还 是 
异常 ( 见 图 1-10) 。 








2 新 实 从 
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图 1-10: 异常 检测 


最 后 ， 还 有 一 个 第 见 的 无 监督 式 任务 是 关联 规则 学 习 ， 其 目的 是 挖 





掘 大 量 数据 ， 发 现 属性 之 间 的 有 趣 联系 。 比 如 ， 假 设 你 开 了 一 家 超市 ， 
在 销售 日 志 上 运行 关联 规则 之 后 发 现 买 烧烤 将 和 薯 片 的 人 也 倾向 于 购买 
和 牛排。 那么 ， 你 可 能 会 将 这 几 样 商品 摆 放 得 更 近 一 些 。 


半 监督 式 学 习 


有 些 算法 可 以 处 理 部 分 标记 的 训练 数据 一 一 通常 是 大 量 未 标记 数据 
和 少量 的 标记 数据 。 这 称 为 半 监 督 式 学 习 《〈 见 图 1-11) 。 


有 些 照片 托管 服务 〈 例 如 Google 相 册 ) 就 是 很 好 的 例子 。 一 旦 你 将 
所 有 的 家 性 照片 上 传 到 服务 器 后 ， 它 会 自动 识别 出 人 物 A 出 现在 照片 
1、5 和 11 中 ， 人 物 B 出 现在 照片 >、5 和 7 中 。 这 是 算法 中 无 监督 的 部 分 
( 聚 类 ) 。 现 在 系统 需要 你 做 的 只 是 ， 告 诉 它 这 些 人 都 是 谁 。 给 每 个 人 

















一 个 标签 外 之 后 ， 它 就 可 以 给 每 张 照片 中 的 每 个 人 命名 ， 这 对 于 搜索 图 
片 非常 重要 。 
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图 1-11: 半 监 督 式 学 习 


大 多 数 半 监督 式 学 习 算 法 是 无 监督 式 和 监督 式 算法 的 结合 。 例 如 深 
度 信念 网 络 (DBN) ， 它 基于 一 种 互相 堆 蕉 的 无 监督 式 组 件 ， 这 个 组 件 
叫 作 受 限 玻 尔 效 曼 机 〈RBM) 。 受 限 玻 尔 效 曼 机 以 无 监督 的 方式 进行 
训练 ， 然 后 使 用 监督 式 学 习 对 整个 系统 进行 微调 。 


强化 学 习 


强化 学 习 则 是 一 个 非常 与 众 不 同 的 “ 巨 兽 ”。 它 的 学 习 系统 《在 其 语 
卉 中 称 为 智能 体 ) 能 够 观察 环境 ， 做 出 选择 ， 执 行 操作 ， 并 获得 回报 
(reward) ， 或 者 是 以 负面 回报 的 形式 获得 惩罚 ， 见 图 1-12。 所 以 它 必 
须 自行 学 习 什 么 是 最 好 的 策略 〈policy) ， 从 而 随 着 时 间 推 移 获得 最 大 
的 回报 。 策 略 代表 鲁能 体 在 特定 情况 下 应 该 选择 的 操作 。 
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图 1-12: 强化 学 习 





例如 ， 许 多 机 器 人 通过 强化 学 习 算 法 来 学 习 如 何 行走 。DeepMind 
的 AlphaGo 项 目 也 是 一 个 强化 学 习 的 好 例子 。2016 年 3 月 ，AlphaGo 在 围 
棋 比 赛 中 击败 世界 冠军 李 世 石 而 声名 瞧 起 。 通 过 分 析 数 百 万 场 比 赛 ， 然 
后 自己 跟 自 己 下 棋 ， 它 学 到 了 制胜 策略 。 要 注意 ， 在 跟 世 界 冠军 对 弈 的 
时 候 ，AlphaGo 处 于 关闭 学 习 状 态 ， 它 只 是 应 用 它 所 学 到 的 策略 而 已 。 


批量 学 习 和 在 线 学 习 
还 有 一 个 给 机 器 学 习 系 统 分 类 的 标准 ， 是 看 系统 是 否 可 以 从 传 入 的 














数据 流 中 进行 增 量 学 习 。 

批量 学 习 

在 批量 学 习 中 ， 系 统 无 法 进行 增 量 学 习 一 一 即 必 须 使 用 所有 可 用 数 
据 进 行 训练 。 这 需要 大 量 时 间 和 计算 资源 ， 所 以 通常 情形 下 ， 部 是 离线 
完成 的 。 离 线 学 习 残 是 先 训 练 系统 ， 然 后 将 其 投入 生产 环境 ， 这 时 学 习 
过 程 停 止 ， 它 只 是 将 其 所 学 到 的 应 用 出 来 。 


如 果 和 希望 批量 学 习 系 统 学 习 新 数据 《例如 新 型 垃圾 邮件 ) ， 你 需要 
在 完整 数据 集 《〈 不 仅仅 是 新 数据 ， 还 要 包括 旧 数 据 ) 的 基础 上 重新 训练 
一 个 新 版 本 的 系统 ， 然 后 停 用 旧 系 统 ， 用 新 系统 取而代之 。 


幸运 的 是 ， 整 个 训练 、 评 估 和 局 动机 器 学 习 系统 的 过 程 可 以 很 轻易 


地 实现 目 动 化 《如 图 1-13 所 示 ) ， 所 以 即使 是 批量 学 习 系统 也 能 够 适应 
变化 。 只 是 需要 不 断 地 里 新 数据 ， 并 根据 十 要 频 紧 地 训练 新 版 本 有 的 系 
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新 数据 (飞速 写 入 ) 
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图 1-13: 在 线 学 习 





这 个 解决 方法 比较 简单 ， 通 常情 况 下 也 都 能 正常 工作 ， 只 是 每 次 痢 
使 用 全 套数 据 集 进行 训练 可 能 需要 伦 上 好 几 个 小 时 ， 所 以 ， 你 很 有 可 能 
会 选择 每 天 甚至 每 周 训练 一 次 新 系统 。 如 有 果 你 的 系统 需要 应 对 快速 变化 
的 数据 例如 ， 现 测 股票 价格 ) ， 那 么 你 需要 一 个 更 其 响应 力 的 解决 万 




















此 外 ， 使 用 完整 数据 训练 需要 耗费 大 量 的 计算 资源 (CPU、 内 存 空 
间 、 磁 盘 空 间 、 磁 盘 VO、 网 络 1/O 等 ) 。 如 果 你 的 数据 量 非常 大 ， 并 且 
每 天 从 零 开 始 自 动 执行 训练 系统 ， 那 最 终 你 将 为 此 花费 大 量 的 金钱 。 而 
假如 你 面 对 的 是 海量 数据 ， 甚 至 可 能 无 法 再 应 用 批量 学 习 算 法 。 


所 以 如 果 你 的 资源 有 限 〔( 例 如 ， 智 能 手机 应 用 程序 或 者 是 火星 上 的 
漫游 器 ) ， 而 系统 需要 实现 自主 学 习 ， 那 么 像 这 样 携 带 大 量 训练 数据 ， 
0 
而 力 不 足 。 


幸运 的 是 ， 在 所 有 这 些 情况 下 ， 我 们 有 了 一 个 更 好 的 选择 一 一 也 就 
征 能 够 进行 增 量 学 习 的 算法 。 


在 线 学 习 


在 在 线 学 习 中 ， 你 可 以 循序 渐进 地 给 系统 提供 训练 数据 ， 逐 步 积累 
学 习 成 果 。 这 种 提供 数据 的 方式 可 以 是 单独 的 ， 也 可 以 采用 小 批量 
Cmini-batches) 的 小 组 数据 来 进行 训练 。 每 一 步 学 习 都 很 快速 并 且 便 
宜 ， 所 以 系统 就 可 以 根据 飞速 写 入 的 最 新 数据 进行 学 习 〈 见 图 1-13) 。 


对 于 这 类 系统 一 一 需要 接收 持续 的 数据 流 《〈《 例 如 股票 价格 ) 同时 对 
数据 流 的 变化 做 出 快速 或 自主 的 反应 ， 使 用 在 线 学 习 系 统 是 一 个 非常 好 
的 方式 。 如 果 你 的 计算 资源 有 限 ， 在 线 学 习 系统 同样 也 是 一 个 很 好 的 选 
择 : 新 的 数据 实例 一 旦 经 过 系统 的 学 习 ， 就 不 再 需要 ， 你 可 以 将 其 丢 莽 
(除非 你 想 要 回 深 到 前 一 个 状态 ， 再 “重新 学 习 ” 数 据 ) ， 这 可 以 节省 大 


量 的 空间 。 


对 于 超大 数据 集 一 一 超出 一 人 台 计 算 机 的 主 存储 器 的 数据 ， 在 线 学 习 
算法 也 同样 适用 《这 称 为 核 外 学 习 ) 。 算 法 每 次 只 加 载 部 分 数据 ， 并 针 
对 这 部 分 数据 进行 训练 ， 然 后 不 断 重 复 这 个 过 程 ， 直 到 完成 所 有 数据 的 
训练 〈 见 图 1-14) 。 
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图 1-14: 使 用 在 线 学 习 处 理 超 大 数据 集 





处 \ 必 个 过 程 通常 是 离线 完成 的 《也 就 是 不 在 live 系 统 上 ) ， 因 此 
在 线 学 习 这 个 名 字 很 容易 让 人 产生 误解 。 我 们 可 以 将 其 视 为 增 量 学习 。 


在 线 学 习 系 统 的 一 个 重要 参数 是 其 适应 不 断 变化 的 数据 的 速度 ， 这 
就 是 所 谓 的 学 习 率 。 如 采 设 置 的 学 习 率 很 高 ， 那 么 系统 将 会 迅速 适应 新 
数据 ， 但 同时 也 会 很 快 忘 记 旧 数据 (你 肯定 不 希望 垃圾 邮件 过 小 器 只 对 
最 新 显示 的 邮件 进行 标记 ) 。 反 过 来 ， 如 条 学 习 率 很 低 ， 系 统 会 有 更 高 
的 惰性 ， 也 惑 是 说 ， 学 习 会 更 缓慢 ， 同 时 也 会 对 新 数据 中 的 噪声 或 者 非 
典型 数据 点 的 序列 更 不 敏感 。 


在 线 学 习 面 临 的 一 个 重大 挑战 是 ， 如 果 给 系统 输入 不 民 数 据 ， 系 统 
的 性 能 将 会 逐渐 下 降 。 现 在 某 些 实时 系统 的 客户 说 不 定 已 经 注意 到 了 这 
个 现 农 。 不 民 数 据 的 来 源 可 能 是 ， 例 如 ， 机 器 上 发 生 故 障 的 传感器 ， 或 
者 是 有 人 对 搜索 引擎 恶意 刷 屏 以 提高 搜索 络 果 排 名 等 。 为 了 降低 这 种 风 

















险 ， 你 需要 密切 监控 你 的 系统 ， 一 旦 检测 到 性 能 下 降 ， 要 及 时 中 断 学 习 
《可 能 还 需要 恢复 到 之 前 的 工作 状态 ) 。 当 然 ， 同 时 你 还 需要 监控 输入 
数据 ， 并 对 异 冲 数据 做 出 啊 应 〈 例 如， 使 用 异 冲 检测 算法 ) 。 


基于 实例 与 基于 模型 的 学 习 


另 一 种 对 机 器 学 习 系 统 进行 分 类 的 方法 是 看 它们 如 何 泛 化 。 大 多 数 
机 需 学 习 任 务 是 要 做 出 预测 。 这 意味 着 ， 系 统 需要 通过 给 定 的 训练 示 
例 ， 在 它 此 前 并 未 见 过 的 示例 上 进行 泛 化 。 在 训练 数据 上 实现 展 好 的 性 
MA 
现 出 色 。 


泛 化 的 主要 方法 有 两 种 : 基于 实例 的 学 习 和 基于 模型 的 学 习 。 
基于 实例 的 学 习 


我 们 最 司空 见 惯 的 学 习 方 法 就 是 简单 的 死记 便 背 。 如 末 以 这 种 方式 
创建 一 个 垃圾 邮件 过 滤器 ， 那 它 可 能 只 会 标记 那些 跟 已 被 用 户 标 记 为 垃 
人 
最 好 的 。 


除了 完全 相同 的 ， 你 还 可 以 通过 编程 让 系统 标记 与 己 知 的 垃圾 邮件 
非常 相似 的 邮件 。 这 里 需要 两 封 邮件 之 间 的 相似 度 上 度量。 有 一 种 〈 基 本 
的 ) 相似 度 上 度量 方式 ， 是 计算 它们 之 间 相同 的 单词 数目 。 如 果 一 封 新 邮 
em 
了 件 。 


这 便 是 基于 实例 的 学 习 : 系统 先 完全 记 住 学 习 示 例 (example) ， 
然后 通过 茶 种 相似 度 度 量 方式 将 其 泛 化 到 新 的 实例 〈 见 图 1-15) 。 


基于 模型 的 学 习 


从 一 组 示例 集中 实现 泛 化 的 另 一 种 方法 是 构建 这 些 示例 的 模型 ， 然 
后 使 用 该 模型 进行 预测 。 这 束 是 基于 模型 的 学 习 《〈 见 图 1-16) 。 
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图 1-16: 基于 模型 的 学 习 


举例 来 说 ， 假 设 你 想 知道 金钱 是 否 让 人 感到 快乐 ， 你 可 以 从 经 合 组 
织 (OECD ) 的 网 站 (https://goo.gVOEht9W) 上 下 载 “幸福 指数 ”的 数 
据 ， 再 从 国际 货币 基金 组 织 (IMF) 的 网 站 〈http:/goo.gUVj1MSKe) 上 


找到 人 均 GDP 的 统计 数据 ， 将 数据 并 入 表格 ， 按 照 人 均 GDP 排 序 ， 你 会 
得 到 如 表 1-1 显 示 的 摘要 。 








表 1-1: 金钱 是 否 让 人 感到 快乐 


国家 人 均 GDP 生活 满意 度 
匈牙利 12 240 4 
韩国 27 195 $8 
法 国 37 675 65 


表 1-1: 金钱 是 否 让 人 感到 快乐 〈 续 ) 








澳大利亚 50962 13 
寺 国 JJ 80) fi 


让 我 们 随机 绘制 几 个 国家 的 数据 〈 见 图 1-17) 。 
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图 1-17: 看 出 趋势 了 么 


这 里 似乎 有 一 个 趋势 ! 虽然 数据 包含 噪声 〈 即 部 分 随机 ) ， 但 是 仍 
然 可 以 看 出 随 着 国内 生产 总 值 的 增加 ， 生 活 满意 度 或 多 或 少 呈 线性 上 升 
的 趋势 。 所 以 你 可 以 把 生活 满意 度 建 模 成 一 个 关于 人 均 GDP 的 线性 函 
数 。 这 个 过 程 叫 作 模型 选择 。 你 为 生活 满意 度 选择 了 一 个 线性 模型 ， 该 
模型 只 有 一 个 属性 ， 束 是 人 均 GDP 〈 见 公式 1-1) 。 


公式 1-1: 一 个 简单 的 线性 模型 


生活 满意 上 度 二 00+01X 人 均 GDP 


这 个 模型 有 两 个 参数 ，6o 和 68; 。 乌 通过 调整 这 两 个 参数 ， 可 以 用 这 
个 模型 来 代表 任意 线性 函数 ， 如 图 1-18 所 示 。 


在 使 用 模型 之 前 ， 需 要 先 定义 参数 90 和 901 的 值 。 怎 么 才能 知道 什么 
值 可 以 使 得 模型 表现 最 佳 呢 ? 要 回答 这 个 问题 ， 需 要 先 确定 怎么 衡量 模 
型 的 性 能 表现 。 要 么 定义 一 个 效用 函数 (或 适应 度 函 数 ) 来 衡量 模型 有 
多 好 ， 要 么 定义 一 个 成 本 函数 来 衡量 模型 有 多 差 。 对 于 线性 回归 问题 ， 
通 第 的 选择 是 使 用 成 本 函数 来 衡量 线性 模型 的 预测 与 训练 实例 之 间 的 盈 
距 ， 目 的 在 于 尽量 使 这 个 差距 最 小 化 。 
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人 均 GDP 
图 1-18: 可 能 的 线性 模型 
这 正 是 线性 回归 算法 的 意义 所 在 : 通过 你 提供 的 训练 样本 ， 找 出 最 


符合 所 提供 数据 的 线性 模型 的 参数 ， 这 就 是 训练 模型 的 过 程 。 在 我 们 这 
个 案例 中 ， 算 法 找到 的 最 优 参 数值 为 00 二 4.85 和 0 二 4.91x10” 





现在 ，《 对 于 线性 模型 而 言 ) 模型 基本 接近 训练 数据 ， 如 图 1-19 所 
示 。 
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图 1-19: 对 训练 数据 拟 合 最 佳 的 线性 模型 


现在 终于 可 以 运用 模型 来 进行 预测 了 。 例 如 ， 你 想 知 道 塞浦路斯 的 
人 民有 多 幸福 ， 但 是 经 合 组 织 的 数据 没有 提供 答案 。 科 好 你 有 这 个 模型 
可 以 做 出 预测 : 先 查 查 塞浦路斯 的 人 均 GDP 是 多 少 ， 即 22587 美 元 ， 然 
后 应 用 到 模型 中 ， 发 现 生活 满意 度 大 约 是 4.85+22587x4.91x10” 二 5.96。 
为 了 激发 你 的 兴趣 ， 示 例 1-1 是 一 段 加 载 数 据 的 Python 代 码 ， 包 括 准 
备 数据 ， 创建 一 个 可 视 化 的 散 点 图 ， 然 后 训练 线性 模型 并 做 出 预 
测 。 志 


示例 1-1: 使 用 Scikit-Learn 训 练 并 运行 一 个 线性 模型 





import matplotlib 
import matplotlib.pyplot as pilt 
import numpy as np 


import pandas as pd 
import sklearn 


# Load the data 

oecd bli = pd.read csv("oecd bli 2015.csv", thousands=',') 

gdp_per_capita = pd.read csv("gdp_per_capita.csv",thousands=',',delimiter="'\t", 
encoding='latin1', na_values="n/a") 


# Prepare the data 

country_stats = prepare country_stats(oecd bli, gdp_per_capita) 
X= np.c_[country_stats["GDP per capita"]] 

y = np.c_[country_stats["Life satisfaction"]] 


# Visualize the data 
country_stats.plot(kind='scatter', x="GDP per capita", y='Life satisfaction') 
plt. show() 


# Select a linear model 
lin_reg model = sklearn.linear_ model.LinearRegression() 


# Train the model 
lin_reg_model.fit(X, y) 


# Make a prediction for Cyprus 
X_new = [[22587]] # Cyprus' GDP per capita 
print(lin_ reg model.predict(X new)) # outputs [[ 5.96242338]] 





外 如 果 便 用 基于 实例 的 学 习 算 法 ， 你 会 发 现 斯 洛 文 尼 亚 的 人 均 
GDP 最 接近 塞浦路斯 〈20732 美 元 ) ， 而 经 合 组 织 的 数据 告诉 我 们 ， 斯 
洛 文 尼 亚 人 民 的 生活 满意 度 是 5.7， 因 此 你 很 可 能 会 预测 塞浦路斯 的 生 
活 满 意 度 为 5.7。 如 果 稍 微 拉 远 一 些 ， 看 看 两 个 与 之 最 接近 的 国家 
葡萄 牙 和 西班牙 的 生活 满意 度 分 别 为 5.1 和 6.5。 取 这 三 个 数值 的 平均 
值 ， 得 到 5.77， 这 也 非常 接近 你 基于 模型 预测 所 得 的 值 。 这 个 简单 的 算 
法 被 称 为 k- 近 邻 回 归 算 法 (在 本 例 中 ，k 二 3) 。 要 将 前 面 代码 中 的 线性 
回归 模型 替换 为 k- 近 邻 回 归 模 型 非常 简单 ， 只 需要 将 下 面 这 行 代码 : 

















clf = sklearn,.linear_model.LinearRegression() 





答 换 为 : 





clf = sklearn.neighbors.KNeighborsRegressor(n_neighbors=3) 





如 末 一 切 顺 利 ， 你 的 模型 将 会 做 出 很 棒 的 预测 。 如 果 不 行 ， 你 可 能 
需要 使 用 更 多 的 属性 《〈 例 如 就 业 率 、 健 康 、 空 气 污 染 等 ) ， 或 者 是 获得 
更 多 或 更 高 质量 的 训练 数据 ， 再 或 者 是 选择 一 个 更 强大 的 模型 “例如 ， 








多 项 式 回归 模型 ) 。 
简 而 言 之 : 
-学习 数据 。 
选择 模型 。 


使 用 训练 数据 进行 训练 〈 即 前 面 学 习 算 法 搜索 模型 参数 值 ， 从 而 
使 成 本 函数 最 小 化 的 过 程 ) 。 


RE 应 用 模型 对 新 示例 进行 预测 ( 称 为 推断 ) ， 禄 祷 模 型 的 泛 
结果 \ 错 。 


以 上 就 是 一 个 典型 的 机 器 学 习 项 目 ， 在 第 2 革 中 ， 你 还 将 通过 一 个 
端 到 端的 项 目 来 体验 这 一 切 。 


到 目前 为 止 ， 我们 已 经 介绍 了 多 个 领域 ， 你 已 经 知道 了 什么 古 真 正 
的 机 器 学 习 ， 它 为 何 有 用 ， 机 器 学 习 系 统 最 常见 的 类 别 有 哪 些 ， 以 及 典 
型 的 项 目 工作 流程 。 现 在 让 我 们 看 看 你 在 学 习 过 程 中 可 能 会 遇 到 哪些 阻 
三 你 做 出 准确 预测 的 问题 。 


[1 一 则 趣事 : 这 个 读 起 来 很 奇怪 的 名 字 (regression) 是 弗 兰 西 斯 :加 尔 
顿 提出 的 统计 学 术语 ， 当 时 他 正 研究 一 个 现象 ， 那 就 是 高 个 父母 的 孩子 
往往 比 他 们 要 矮 一 些 。 由 于 高 个 父母 的 孩子 在 变 矮 ， 他 就 把 这 个 趋势 称 
为 均 数 回归 。 后 来 这 个 名 词 就 被 他 用 于 分 析 变 量 之 间 相 关 性 的 方法 。 

[2] 某 些 神经 网 络 染 构 可 以 是 无 监督 式 的 ， 例 如 自动 编码 器 和 受 限 玻 尔 
兹 曼 机 ; 也 可 能 是 半 监 督 式 的 ， 例 如 深度 信念 网 络 和 无 监督 的 预 训 练 。 

[3] 注意 它 是 如 何 很 好 地 区 分 开动 物 和 车 辆 的 ， 以 及 马 是 如 何 更 接近 上 鹿 
而 远离 乌 类 的 ， 等 等 。 网 表 转 载 许可 来 自 于 Socher、Ganjoo、Manning 

和 Ng(2013)，“T-SNE visualization of the semantic word space”。 

[4] 这 是 在 系统 完美 工作 的 情况 下 。 在 实践 中 ， 通 常会 为 每 个 人 创造 多 
个 集群 ， 有 时 也 会 混 消 两 个 看 起 来 相似 的 人 ， 因 此 你 需要 为 每 个 人 提供 
多 个 标记 ， 同 时 手动 清理 一 些 集群 。 

[5] 按照 惯例 ， 通 常用 希腊 字母 6 来 表示 模型 参数 。 

[6] 这 段 代 码 假定 prepare_country_stats () 已 经 被 定义 : 它 将 GDP 和 后 
活 满意 度数 据 合并 成 一 个 单独 的 Pandas dataframe。 

[7] 如 果 你 无 法 完全 理解 所 有 的 代码 也 没有 关系 ， 我 们 将 在 后 面 的 章节 


























中 详细 介绍 Scikit-Learn。 


机 口 学 习 的 主要 挑 成 


简单 来 说， 由 于 你 的 主要 任务 是 选择 一 种 学 习 算 法 ， 并 对 某 些 数据 
进行 训练 ， 所 以 最 可 能 出 现 的 两 个 问题 不 外 乎 是 “ 坏 算法 ”和 “ 坏 数据 ”， 
让 我 们 先 从 坏 数 据 开始 。 


训练 数据 的 数量 不 足 


要 教 一 个 牙牙 学 语 的 小 朋友 什么 是 苹果 ， 你 只 需要 指 着 苹果 说 “ 草 
果 ”( 可 能 需要 重复 这 个 过 程 几 次 ) 就行 了 ， 然 后 孩子 就 能 够 识别 各 种 
颜色 和 形状 的 苹果 了 ， 简 直 是 天 才 ! 


机 器 学 习 还 没 达 到 这 一 步 ， 大 部 分 机 器 学 习 算法 需要 大 量 的 数据 才 
能 正常 工作 。 即 使 是 最 简单 的 问题 ， 很 可 能 也 需要 成 千 上 万 个 示例 ， 而 
对 于 诸如 图 像 或 语音 识别 等 复杂 问题 ， 则 可 能 需要 上 千 万 个 示例 (除非 
你 可 以 重用 现 有 模型 的 某 些 部 分 ) 。 


数据 的 不 合理 有 效 性 
在 2001 年 发 表 的 一 篇 著名 论文 中 ， 微 软 研究 员 Michele Banko 和 Eric 


Brill 表 明 ， 截 然 不 同 的 机 器 学 习 算法 (包括 相当 简单 的 算法 ) 在 自然 语 
言 歧义 消除 山 这 个 复杂 问题 上 ， 表 现 几 乎 完全 一 致 〈 如 图 1-20 所 示 ) 。 


























-6 一 基于 记忆 的 算法 
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图 1-20: 数据 对 算法 的 重要 性 乌 


正如 作者 所 说 :“ 这 些 结果 表明 ， 我 们 可 能 会 重新 思考 如 何在 二 者 
Ea 间 花 在 算法 的 开发 上 ， 还 是 花 在 语料库 的 建设 





对 复杂 问题 而 言 ， 数 据 比 算法 更 重要 ， 这 一 想法 被 Peter Norvig 等 人 
进一步 推广 ， 于 2009 年 发 表 论 文 《数据 的 不 合理 有 效 性 》 印 。 不 过 需要 
指出 的 是 ， 中 小 型 数据 集 依 然 非常 普 壳 ， 获 得 额外 的 训练 数据 并 不 总 是 





一 件 轻而易举 或 物美 价 廉 的 事情 ， 所 以 暂时 先 不 要 抛弃 算法 。 
训练 数据 不 具 代 表 性 


为 了 很 好 地 实现 泛 化 ， 至 关 重 要 的 一 点 是 ， 对 于 将 要 泛 化 的 新 示例 
来 说 ， 训 练 数 据 一 定 要 非常 有 代表 性 。 不 论 你 使 用 的 是 基于 实例 的 学 习 
还 是 基于 模型 的 学 习 ， 孝 是 如 此 。 


例如 ， 前 面 我 们 用 来 训练 线性 模型 的 国家 数据 集 并 不 具备 完全 的 代 
表 性 ， 有 部 分 国家 的 数据 缺失 。 图 1-21 显 示 了 补充 缺失 国家 /地 区 信息 之 
后 的 数据 表现 。 








生活 满意 度 
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图 1-21: 一 个 更 具 代 表 性 的 训练 样 例 


如 果 你 用 这 个 数据 集训 练 线 性 模型 ， 将 会 得 到 图 中 的 实 线 ， 而 虚线 
表示 旧 模 型 。 正 如 你 所 见 ， 添 加 部 分 缺失 的 国家 信息 不 仅 显 著 地 改变 了 
模型 ， 也 更 清楚 地 说 明 ， 这 种 线性 模型 可 能 永远 不 会 那么 准确 。 看 起 
来 ， 某 些 非常 证 俗 的 国家 并 不 比 中 等 证 座 国 家 焉 福 (事实 上 ， 看 起 来 其 
至 是 不 幸福 ) ， 有 反之， 一 些 贫穷 的 国家 也 似乎 比 许多 富裕 国家 更 加 快 


乐 


使 用 不 具 代 表 性 的 训练 集训 练 出 来 的 模型 不 可 能 做 出 准确 的 预 估 ， 
尤其 是 针对 那些 特别 贫穷 或 特别 富裕 的 国家 。 





针对 你 想 要 泛 化 的 采 例 使 用 具有 代表 性 的 训练 集 ， 这 一 点 至 关 重 
要 。 不 过 说 起 来 容易 ， 做 起 来 难 : 如 果 样 本 集 太 小 ， 将 会 出 现 采 样 噪声 
〈 即 非 代 表 性 数据 被 选中 ) ; 而 即便 是 非常 大 的 样本 数据 ， 如 果 采 样 方 
式 欠 受 ， 也 同样 可 能 导致 非 代表 性 数据 集 ， 这 就 是 所 训 的 采样 偏差 。 


关于 采样 偏差 的 一 个 着 名 案例 


最 著名 的 采样 偏差 的 案例 ， 发 生 在 1936 年 美国 总 统 大 选 期 间 ， 兰 登 
对 决 罗 斯 福 。 《Literary Digest》 当时 举行 了 一 次 非常 大 范围 的 民意 调 
查 ， 问 约 1000 万 人 发 送 邮 件 ， 并 得 到 了 240 万 个 回复 ， 因 此 做 出 了 高 度 
自信 的 预言 一 一 兰 登 将 获得 57% 的 选票 。 


结果 恰恰 相反 ， 罗 斯 福 赢得 了 62% 的 选票 。 问 题 就 在 于 《Literary 
Digest》 的 采样 方式 : 


首先， 为 了 获取 发 送 民意 调查 的 地 址 ，《Literary Digest》 采 用 了 
电话 短 、 杂 志 订 阅 名 单 、 俱 乐 部 会 员 名 单 等 类 似 名 短 。 而 所 有 这 些 名 单 
上 的 人 往往 对 富 人 有 更 大 的 偏好 ， 也 束 更 有 可 能 文 持 共和 和 党 〈 即 兰 


I 


其 次 ， 收 到 民意 调查 邮件 的 人 中 ， 不 到 25% 的 人 给 出 了 回复 。 这 再 
次 引入 了 采样 偏 产 ， 那 些 不 怎么 关心 政治 的 人 ， 不 言 欢 《Literary 
Digest》 的 人 以 及 其 他 的 一 些 关 键 群体 直接 被 排除 在 外 了 。 这 有 是 一 种 特 
丈 类 型 的 采样 偏差 ， 叫 作 无 反应 偏差 。 


再 举 一 个 例子 : 假设 你 想 创建 一 个 系统 用 来 识别 funk 首 乐 视频 。 构 
建 训练 集 的 方法 之 一 是 直接 在 YouTube 上 搜索 “funk music”， 然 后 使 用 搜 
索 结 果 的 视频 。 但 是 ， 这 其 实 基于 一 个 假设 一 一 YouTube 的 搜索 引擎 返 
回 的 视频 结果 ， 是 所 有 能 够 代表 funk 音 乐 的 视频 。 而 实际 的 搜索 结果 可 
能 会 更 偏 同 于 当前 流行 的 首 乐 人 【〔 如 果 你 住 在 巴西 ， 你 会 得 到 很 多 关 
于 “funk carioca” 的 视频 ， 这 听 起 来 跟 James Brown 完 全 不 是 一 回 事 ) 多 。 
男 一 方面 来 讲 ， 你 还 能 怎样 获得 更 大 的 训练 集 呢 ? 


质量 差 的 数据 
显然 ， 如 果 训 练 集 满 是 错误 、 寞 第 值 和 噪声 (例如 ， 差 质量 的 测量 


产生 的 数据 ) ， 系 统 将 更 难 检 测 到 低层 模式 ， 更 不 太 可 能 表现 恨 好。 所 
以 花 时 间 来 清理 训练 数据 是 非常 值得 的 投入 。 事 实 上 ， 大 多 数 数据 科学 









































家 都 会 花费 很 大 一 部 分 时 间 来 做 这 项 工作 。 例 如 : 


.如 果 某 些 实例 明显 是 异常 情况 ， 要 么 直接 将 其 丢弃 ， 要 么 尝试 手 
动 修复 错误 ， 都 会 大 有 帮助 。 


:如果 某 些 实例 缺少 部 分 特征 〈 例 如，59% 的 顾客 没有 指定 年 龄 ) ， 
你 必须 决定 是 整体 名 略 这 些 特征 ， 还 是 忽略 这 部 分 有 缺失 的 实例 ， 又 或 
者 是 将 缺失 的 值 补充 完整 《例如 ， 填 写 年 龄 值 的 中 位 数 ) ， 或 者 是 训练 
一 个 带 这 个 特征 的 模型 ， 再 训练 一 个 不 带 这 个 特征 的 模型 ， 等 等 。 


无 关 特 征 

正如 我 们 常 说 的 :垃圾 入 ， 垃 圾 出 。 只 有 训练 数据 里 包含 足够 多 的 
相关 特征 ， 以 及 较 少 的 无 天 特征 ， 系 统 才 能 够 完成 学 习 。 一 个 成 功 的 机 
器 学 习 项 目 ， 关 键 部 分 是 提取 出 一 组 好 的 用 来 训练 的 特征 集 ， 这 个 过 程 
叫 作 特征 工程 ， 包 括 以 下 几 点 。 

-特征 选择 从 现 有 特征 中 选择 最 有 用 的 特征 进行 训练 。 


-特征 提取 : 将 现 有 特征 进行 整合 ， 产 生 更 有 用 的 特征 《正如 前 文 
提 到 的 ， 降 维 算 法 可 以 提供 帮助 ) 。 


通过 收集 新 数据 创造 新 特征 。 
现在 我 们 已 经 看 了 不 少 “ 坏 数据 ”的 例子 ， 再 来 看 儿 个 “ 坏 算法 ”的 例 
子 。 











训练 数据 过 度 拟 合 


假设 你 正在 国外 旅游 ， 被 出 租车 司机 狠 字 了 一 刀 ， 你 很 可 能 会 说 ， 
那个 国家 的 所 有 出 租车 司机 都 是 强盗 。 过 度 概 括 是 我 们 人 类 和 常 做 的 事 
情 ， 不 对 的 是 ， 如 宁 我 们 不 小 心 ， 机 需 很 可 能 也 会 陷入 同样 的 陷阱 。 在 
机 强 学 习 中 ， 这 称 为 过 度 拟 合 ， 也 就 是 指 模 型 在 训练 数据 上 表现 良好 ， 
但 是 汉化 时 却 不 尽 如 人 人意 。 


图 1-22 显 示 了 一 个 与 训练 数据 过 度 拟 合 的 、 高 阶 多 项 式 的 生活 满意 
度 模 型 。 虽 然 它 在 训练 数据 上 的 表现 比 简单 的 线性 模型 要 好 得 多 ， 但 是 
你 真 的 敢 相 信 它 的 预测 吗 ? 
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图 1-22: 训练 数据 过 度 拟 合 


诸如 深度 神经 网 络 这 类 的 复杂 模型 可 以 检测 到 数据 中 的 微小 模式 ， 

如 果 训 练 集 本 身 是 嘲 杂 的 ， 或 者 说 数据 集 太 小 (会 导致 采样 噪声 ) ， 那 
么 很 可 能 会 导致 模型 检测 噪声 里 的 模式 。 很 显然 ， 这 些 模 式 不 能 泛 化 至 
新 的 实例 。 举 例 来 说 ， 假 设 你 给 你 的 生活 满意 度 模 型 提供 了 更 多 其 他 的 
属性 ， 包 括 一 些 不 具 信 息 的 属性 例如 国家 的 名 字 。 在 这 种 情况 下 ， 一 个 
复杂 模型 可 能 会 检测 到 这 样 的 事实 模式 : 训练 数据 中 ， 名 字 中 和 带 有 字母 
WwW 的 国家 ， 如 新 西 兰 (New Zealand， 生 活 满意 度 为 7.3) 、 挪 威 
CNorway， 生 活 满意 度 为 7.4) 、 瑞 典 〈Sweden， 生 活 满意 度 为 7.2) 和 
瑞士 〈Switzerland， 生 活 满意 度 为 7.5) ， 生 活 满意 度 大 于 7。 当 把 这 个 
W 规 则 泛 化 到 卢旺达 (Rwanda) 或 津巴布韦 〈Zimbabwe) 时 ， 你 对 结 
果 有 多 大 的 自信 ? 显然 ， 训 练 数据 中 的 这 个 模式 仅仅 是 偶然 产生 的 ， 但 
是 模型 无 法 判断 这 个 模式 是 真实 的 ， 还 是 噪声 产生 的 结果 。 

















外 当 模型 相对 于 训练 数据 的 数量 和 品 度 都 过 于 复杂 时 ， 会 发 生 过 
度 拟 合 。 可 能 的 解决 方案 如 下 。 


-简化 模型 ， 可 以 选择 较 少 参数 的 模型 〈 例 如 ， 选 择 线性 模型 而 不 
人 ， 可 以 减少 训练 数据 中 的 属性 数量 ， 又 或 者 是 约束 
贷 型 。 


收集 更 多 的 训练 数据 。 
-减少 训练 数据 中 的 噪声 〈 例 如 ， 修 复数 据 错 误 和 消除 异常 值 ) 。 


通过 约束 模型 使 其 更 简单 ， 并 降低 过 度 拟 合 的 风险 ， 这 个 过 程 称 为 
正则 化 。 例 如 ， 我 们 前 面 定 义 的 线性 模型 有 两 个 参数 ，60 和 6 。 因 此 ， 
该 算法 在 拟 合 训练 数据 时 ， 调 整 模型 的 自由 度 就 等 于 2: 它 可 以 调整 线 
的 高 度 (60〉 和 和 斜率 (91) 。 如 果 我 们 强行 让 901 二 0， 那 么 算法 的 上 自由 民 
将 会 降 为 1， 并 且 其 拟 合 数 据 将 变 得 更 为 艰难 一 一 它 能 做 的 全 部 就 只 是 
将 线 上 移 或 下 移 来 尽量 接近 训练 实例 ， 最 后 极 有 可 能 停留 在 平均 值 附 
近 。 这 确实 太 简单 了 ! 如 果 我 们 允许 算法 修改 6;,， 但 是 我 们 强制 它 只 能 
是 很 小 的 值 ， 那 么 算法 的 自由 度 将 位 于 1 和 2 之 间 ， 这 个 模型 将 会 比 自由 
度 为 2 的 模型 稍微 简单 一 些 ， 同 时 又 比 自 由 度 为 1 的 模型 略微 复杂 一 些 。 
你 需要 在 完美 匹配 数据 和 保持 模型 简单 之 间 找 到 合适 的 平衡 点 ， 从 而 确 
保 模型 能 够 较 好 地 泛 化 。 


图 1-23 显 示 了 三 个 模型 蓝 色 虚线 代表 一 开始 的 原始 模型 ， 也 就 是 
缺失 部 分 国家 的 数据 ;红色 虚线 代表 用 所 有 国家 数据 训练 的 第 二 个 模 
型 ， 实 线 代表 的 模型 与 第 一 个 模型 使 用 的 训练 数据 相同 ， 但 是 应 用 了 正 
则 化 的 约束 。 我 们 可 以 看 出 通过 正则 化 使 得 模型 具有 较 小 的 斜率 ， 这 虽 
0 0 
列 。 
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图 1-23: 通过 正则 化 降低 过 度 拟 合 的 风险 


在 学 习 时 ， 应 用 正则 化 的 程度 可 以 通过 一 个 超 参 数 来 控制 。 超 参数 
是 学 习 算法 (不 是 模型 》 的 参数 。 因 此 ， 它 不 受 算法 本 里 的 影响 ;， 它 必 
须 在 训练 之 前 设置 好 ， 并 且 在 训练 期 间 保持 不 变 。 如 果 将 正则 化 超 参数 
设置 为 非常 大 的 值 ， 会 得 到 一 个 几乎 平坦 的 模型 “斜率 接近 零 ) ; 学 习 
算法 虽然 肯定 不 会 过 度 拟 合 训 练 数据 ， 但 是 也 更 加 不 可 能 找到 一 个 好 的 
解决 方案 。 调 整 超 参 数 是 构建 机 器 学 习 系统 非常 重要 的 组 成 部 分 〈 将 在 
下 一 章 中 详细 举例 ) 。 


训练 数据 拟 合 不 足 

你 可 能 已 经 猪 到 了 ， 拟 合 不 足 和 过 度 拟 合 正好 相反 : 它 的 产生 通常 
古 因为 ， 对 于 下 层 的 数据 吉 构 来 说 ， 你 的 模型 太 过 简单 。 举 个 例子 ， 用 
线性 模型 来 描述 生活 满意 度 就 属于 拟 合 不 足 ; 现实 情况 远 比 模型 复杂 得 
0 该 模型 产生 的 预测 都 一 定 是 不 准 
全 的 。 

解决 这 个 问题 的 主要 方式 有 : 

选择 一 个 带 有 更 多 参数 、 更 强大 的 模型 

给 学 习 算 法 提供 更 好 的 特征 集 (特征 工程 ) 

-减少 模型 中 的 约束 〈 比 如， 减少 正则 化 超 参数 ) 
退 后 一 步 


现在 你 已 经 对 机 器 学 习 有 了 一 些 了 解 。 不 过 讲 了 这 么 多 概念 ， 你 可 
能 有 点 学 ， 我 们 和 暂且 退 后 一 步 ， 纵 观 一 下 全 局 : 


机 器 学 习 是 关于 如 何 让 机 器 可 以 更 好 地 处 理 东 些 特定 任务 的 理 
论 ， 它 从 数据 中 学 习 ， 而 不 是 将 规则 进行 清晰 的 编码 。 


-机 器 学 习 系统 有 很 多 基 型 : 监督 芭 和 无 监督 式 ， 批 量 的 和 在 线 
的 ， 基 于 实例 的 和 基于 模型 的 ， 等 等 。 


-在 一 个 机 器 学 习 项 目 中 ， 你 从 训练 集中 采集 数据 ， 然 后 将 数据 交 





























给 学 习 算 法 来 计算 。 如 果 算 法 是 基于 模型 的 ， 它 会 调整 一 些 参数 来 将 模 
型 适 配 于 训练 集 ( 即 对 训练 集 本 里 做 出 很 好 的 预测 )， 然 后 算法 就 可 以 
对 新 的 场景 做 出 合理 的 预测 。 如 果 算 法 是 基于 实例 的 ， 它 会 记 住 这 些 样 
例 ， 并 根据 相似 度 来 对 新 的 实例 进行 泛 化 。 


:如果 训练 集 的 数据 太 少 ， 数 据 代 表 性 不 够 ， 包 含 太 多 噪声 或 者 是 
被 一 些 无 关 特 征 污 染 《〈 垃 圾 进 ， 垃 圾 出 ) ， 那 么 系统 将 无 法 很 好 地 工 
作 。 最 后 ， 你 的 模型 既 不 能 太 简 单 〈《 这 会 导致 拟 合 不 足 ) ， 也 不 能 太 复 
杂 【〈 这 会 导致 过 度 拟 合 ) 。 


还 有 最 后 一 个 要 讲 的 重要 主题 是 : 在 训练 好 了 一 个 模型 之 后 ， 你 不 
能 只 是 “希望 ” 它 可 以 正确 地 对 新 的 场景 做 出 泛 化 。 你 还 需要 评 佑 它 ， 必 
要 时 做 出 一 些 调整 。 现 在 我 们 看 看 怎么 做 到 这 一 点 。 


[例如 ， 到 底 该 写成 *to”*too”， 还 是 "two”， 完 全 取决 于 上 下 文 。 

[2] 图 片 转载 经 Banko 和 Brill 的 许可 , “Learning Curves for Confusion Set 

Disambiguation”，2001。 

[3] “The Unreasonable Effectiveness of Data”，Peter Norvig 等 人 
(2009) 。 

[4] funk carioca 源 于 巴西 贫民 宣 ， 揉 合 了 hip hop、 电 子 乐 、 摇 深 乐 与 

House 音 乐 ， 具 有 独特 狂热 的 节拍 ， 与 传统 的 fonk 音 乐 很 不 一 样 。 而 

James Brown 是 funk 音 乐 的 代表 人 物 。 

















测试 与 验证 


了 解 一 个 模型 对 于 新 场景 的 泛 化 能 力 的 唯一 办 法 就 是 ， 让 模型 真实 
地 去 处 理 新 场景 。 做 法 之 一 是 将 其 部 署 在 生产 环境 ， 然 后 监控 它 的 输 
出 。 这 个 方法 用 起 来 不 错 ， 不 过 如 采 模 型 非常 糟糕 ， 你 的 用 户 就 会 抱怨 
一 一 所 以 这 显然 不 是 最 好 的 办 法 。 


更 好 的 选择 是 将 你 的 数据 分 割 成 两 部 分 : 训练 集 和 测试 集 。 顾 名 轧 
义 ， 你 可 以 用 训练 集 的 数据 来 训练 模型 ， 然 后 用 测试 集 的 数据 来 测试 模 
型 。 应 对 新 场景 的 误差 率 称 为 泛 化 误 关 〈 或 者 样 例外 误 着 ) ， 通 过 测试 
集 来 评估 你 的 模型 ， 就 可 以 得 到 对 这 个 误 兰 的 评估 。 这 个 估 值 可 以 告诉 
你 ， 你 的 模型 在 处 理 新 场景 时 的 能 力 如 何 。 


如 果 训 练 误差 很 低 〔 模 型 对 于 训练 集 来 说 很 少 出 错 ) ， 但 是 泛 化 误 
兰 很 局， 那 说 明 你 的 模型 对 于 训练 数据 存在 过 上 度 拟 合 。 





全 通常 使 用 80% 的 数据 进行 训练， 保留 另外 的 20% 来 做 测试 。 


所 以 评估 一 个 模型 很 简单 : 用 测试 集 就 行 了 。 现 在 假设 你 在 两 个 模 
型 “一 个 线性 模型 和 一 个 多 项 式 模型 ) 之 间 狐 豫 不 决 : 如 何 做 出 判断 
呢 ? 做 法 是 训练 两 个 模型 ， 然 后 对 比 它们 对 测试 数据 的 泛 化 能 


现在 让 我 们 假设 线性 模型 的 泛 化 能 力 更 强 ， 但 是 你 想 要 应 用 一 些 正 
则 化 来 避免 过 度 拟 合 。 问 题 又 来 了 ， 你 要 如 何 选择 正则 化 超 参 数 的 值 
呢 ? 做 法 之 一 是 使 用 100 个 不 同 的 超 参 数值 来 训练 100 个 不 同 的 模型 。 然 
0 
0 仅仅 59%。 


然后 你 将 这 个 模型 运行 在 生产 环境 ， 可 是 很 不 幸 ， 它 并 没有 如 预期 
那样 工作 ， 反 而 产生 了 15% 的 误差 。 这 到 底 发 生 了 什么 ? 

问题 出 在 你 对 训 试 集 的 泛 化 误差 进行 了 多 次 度量 ， 并 且 调 整 模型 和 
超 参 数 来 得 到 拟 合 那个 测试 集 的 最 佳 模型 。 这 意味 着 该 模型 对 于 新 的 数 
据 不 太 可 能 有 民 好 的 表现 。 


种 见 的 解决 方案 是 再 单独 分 出 来 一 个 保留 集合 ， 称 为 验证 集 。 在 训 

















练 集 上 ， 使 用 不 同 的 超 参 数 训练 多 个 模型 ， 然 后 通过 验证 集 ， 选 择 最 好 
的 那个 模型 和 对 应 的 超 参 数 ， 当 你 对 模型 基本 满意 之 后 ， 再 用 测试 集运 
行 最 后 一 轮 测 试 ， 并 得 到 泛 化 误 兰 的 估 值 。 


为 了 避免 验证 集 “ 当 费 ” 太 多 的 训练 数据 ， 篆 见 的 技术 是 使 用 交叉 验 
证 : 将 训练 集 分 成 行 干 个 互补 子 集 ， 然 后 每 个 模型 都 通过 这 些 子 集 的 不 
同 组 合 来 进行 训练 ， 之 后 用 剩余 的 子 集 进 行 验证 。 一 旦 模型 和 超 参 数 都 
被 选 定 ， 最 终 的 模型 会 带 着 这 些 超 参 数 对 整个 训练 集 进行 一 次 训练 ， 最 
后 再 用 测试 集 测量 泛 化 误差 。 

没有 免费 的 午餐 (No Free Lunch) 定理 

模型 是 观察 的 简化 。 这 个 简化 是 丢弃 了 那些 不 大 可 能 泛 化 至 新 实例 

上 的 多 余 细 广 。 但 是 ， 要 决定 丢弃 哪些 数据 以 及 保留 哪些 数据 ， 你 必须 


要 做 出 假设 。 比 如 ， 线 性 模型 基于 的 假设 就 是 一 一 数据 基本 上 都 是 线性 
的 ， 而 实例 与 直线 之 间 的 距离 都 只 是 噪声 ， 可 以 安全 地 忽略 它们 。 











1996 年 David Wolpert 在 一 篇 著名 论文 中 (http:/goo.gl/3zaHIZ ) 山 表 
明 ， 如 果 你 对 数据 绝对 没有 任何 假设 ， 那 么 你 没有 理由 会 更 偏好 于 某 个 
模型 。 这 称 为 没有 免费 午餐 (No Free Lunch NFL) 定理 。 对 有 的 数据 集 
来 说 ， 最 佳 模型 是 线性 模型 ， 而 对 于 其 他 数据 集 来 说 ， 最 佳 模型 可 能 是 
神经 网 络 模型 。 不 存在 一 个 先 验 模 型 能 保证 一 定 工 作 得 更 好 《〈 这 正 是 定 
理 名 称 的 由 来 ) 。 想 要 知道 哪个 模型 最 好 的 方法 就 是 对 所 有 模型 进行 评 
估 ， 但 实际 上 这 是 不 可 能 的 ， 因 此 你 会 对 数据 做 出 一 些 合理 的 假设 ， 然 
后 只 评估 部 分 合理 的 模型 。 比 如 ， 对 于 简单 的 任务 ， 你 可 能 只 会 评估 几 
个 具有 不 同 正则 化 水 平 的 线性 模型 ， 而 对 于 复杂 问题 ， 你 可 能 会 评估 多 
个 神经 网 络 模 型 。 




















[1| “The Lack of A Priori Distinctions Between Learning Algorithms”， 
D.Wolperts (1996) 。 


| 

本 章 中 ， 我 们 提 及 了 机 器 学 习 中 最 重要 的 一 些 概念 。 下 一 章 ， 我 们 
将 会 进行 更 深入 的 探讨 ， 也 会 写 更 多 代码 ， 但 是 在 那 之 前 ， 请 先 确保 你 
己 经 知道 如 何 回 答 下 列 问 题 : 

1. 你 会 怎么 定义 机 器 学 习 ? 

2. 机 器 学 习 在 哪些 问题 上 表现 突出 ， 你 能 提出 四 种 类 型 吗 ? 

3. 什 么 是 被 标记 的 训练 数据 集 ? 

4. 最 常见 的 两 种 监督 式 学 习 任务 是 什么 ? 

5. 你 能 举 出 四 种 常见 的 无 监督 式 学 习 任 务 吗 ? 


6. 要 让 一 个 机 器 人 在 各 种 未 知 的 地 形 中 行走 ， 你 会 使 用 什么 类 型 的 
机 需 学 习 算 法 ? 


7. 要 将 顾客 分 成 多 个 组 ， 你 会 使 用 什么 类 型 的 算法 ? 

8. 你 会 将 垃圾 邮件 检测 的 问题 列 为 监督 式 学 习 还 是 无 监督 式 学 习 ? 
9. 什 么 是 在 线 学 习 系统 ? 

10. 什 么 是 核 外 学 习 ? 

11. 什 么 类 型 的 学 习 算法 依赖 相似 度 来 做 出 预测 ? 

12. 模 型 参数 与 学 习 算法 的 超 参数 之 间 有 什么 区 别 ? 


13. 基 于 模型 的 学 习 算 法 搜索 的 是 什么 ?它们 最 常 使 用 的 策略 古 什 
?它们 如 何 做 出 预测 ? 


14. 你 能 提出 机 器 学 习 中 的 四 个 主要 挑战 吗 ? 


15. 如 果 你 的 模型 在 训练 数据 上 表现 很 好 ， 但 是 应 用 到 新 的 实例 上 
的 泛 化 结果 却 很 糟糕 ， 是 怎么 回 事 ? 能 提出 三 种 可 能 的 解决 方案 吗 ? 








> 
~ 





16. 什 么 是 测试 集 ， 为 什么 要 使 用 测试 集 ? 
17. 验 证 集 的 目的 是 什么 ? 

18. 如 果 使 用 测试 集 调整 超 参 数 会 出 现 什 么 问题 ? 
19. 什 么 是 交叉 验证 ? 它 为 什么 比 验 证 集 更 好 ? 
以 上 练习 题 的 答案 见 附录 A。 


第 2 草 ” 问 到 融 的 机 内 学 习 项 目 


在 本 章 中 ， 你 将 经 历 一 个 端 到 端的 项 目 案例 ， 假 设 你 是 一 个 房地产 
公司 凯 最 近 新 雇佣 的 数据 科学 家 ， 以 下 是 你 将 会 经 历 的 主要 步 又 : 


1. 观 察 大 局 。 

2. 获 得 数据 。 

3. 从 数据 探索 和 可 视 化 中 获得 洞 见 。 
4. 机 器 学 习 算 法 的 数据 准备 。 

5. 选 择 和 训练 模型 。 

6. 微 调 模型 。 

7. 展 示 解 决 方案 。 

8. 启 动 、 监 控 和 维护 系统 。 


LI 项 目 案例 纯 属 虚构 ， 目 的 仅仅 是 为 了 说 明 机 器 学 习 项 目的 主要 步 
又 ， 而 不 是 为 了 了 解 房地产 业务 。 








使 用 真实 数据 

学 习 机 器 学 习 最 好 使 用 真实 数据 进行 实验 ， 而 不 仅仅 是 人 工 数据 
集 。 我 们 有 成 千 上 万 覆盖 了 各 个 领域 的 开放 数据 集 可 以 选择 。 以 下 是 一 
些 可 以 获得 数据 的 地 方 : 

流行 的 开放 数据 存储 库 ; 


‘UC Irvine Machine Learning 
Repository (http://archive.ics.uci.eduy/ml/) 








‘Kaggle datasets (https://www.kaggle.com/datasets) 
‘Amazon’s AWS datasets (http:/aws.amazon.com/fr/datasets/) 
元 门户 站 点 《它们 会 列 出 开放 的 数据 存储 库 〉: 
“http://dataportals.org/ 

‘http://opendatamonitor.eu/ 

“http://quandl.comy/ 

其 他 一 些 列 出 许多 流行 的 开放 数据 存储 库 的 页 面 : 


‘Wikipedia’s list of Machine Learning 
datasets (https://goo.g/SJHN2k) 


‘Quora.com question (http://goo.gl/zDR78y) 


.Datasets subreddit (https://www.reddit.com/r/datasets) 


本 章 我 们 从 StatLib 库 出 中 选择 了 加 州 住房 价格 的 数据 集 ( 见 图 2- 
1) 。 该 数据 集 基于 1990 年 加 州 人 口 普查 的 数据 。 虽 然 不 算是 最 新 的 数 
据 《〈 当 时 你 还 能 负担 得 起 一 个 湾 区 的 好 房子 ) ， 但 是 有 很 多 可 以 学 习 的 
特质 ， 所 以 我 们 束 假 定 这 就 是 最 新 的 数据 吧 。 出 于 教学 目的 ， 我 们 还 特 
意 添加 了 一 个 分 类 属性 ， 并 且 移 除了 一 些 特 征 。 
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纬度 


图 2-1: 加 州 住房 价格 
[1 原始 的 数据 集 来 自 于 R.KElly Pace 和 Ronald Barry 的 “Sparse Spatial 
Autoregressions”, Statistics & Probability Letters 33, no.3 (1997) : 291- 
297。 








观察 大 局 


欢迎 来 到 机 器 学 习 房 产 公 司 ! 你 要 做 的 第 一 件 事 是 使 用 加 州 人 口 普 
查 的 数据 建立 起 加 州 的 房价 模型 。 数 据 中 有 许多 指标 ， 诸 如 每 个 街区 的 
人 口 数量 、 收 入 中 位 数 、 房 价 中 位 数 等 。 街 区 是 美国 人 口 普查 局 发 布 样 
本 数据 的 最 小 地 理 单位 (一 个 街区 通常 人 口 数 为 600 一 3000 人 )〉 。 这 
里 ， 我 们 将 其 简称 为 “区 域 ”。 


你 的 模型 需要 从 这 个 数据 中 学 习 ， 从 而 能 够 根据 所 有 其 他 指标 ， 预 
测 任 意 区 域 的 房价 中 位 数 。 





名 果 你 是 一 名 习惯 良好 的 数据 科学 家 ， 你 要 做 的 第 一 件 事 应 该 
是 拿 出 机 器 学 习 项 目 清单 。 你 可 以 从 附录 B 中 的 清单 项 开始 ， 它 适合 绝 
大 多 数 机 器 学 习 项 目 ， 但 还 是 要 确保 它 适 合 你 的 需求 。 本 章 我 们 将 会 讨 
论 这 个 清单 中 的 部 分 内 容 ， 但 也 会 跳 过 一 部 分 ， 有 些 是 因为 不 需要 多 做 
解释 ， 有 些 是 因为 在 后 面 的 章节 中 会 展开 讨论 。 


框架 问题 


你 问 老 板 的 第 一 个 问题 ， 应 该 是 询问 业务 目标 是 什么 ， 因 为 建立 模 
型 本 身 可 能 不 是 最 终 的 目标 。 公 司 期 望 知道 如 何 使 用 这 个 模型 ， 如 何 从 
中 获 益 ?这 才 是 重要 的 问题 ， 因 为 这 将 决定 你 怎么 设 定 问题 ， 选 择 什么 
拭 法 ， 使 用 什么 测量 方式 来 评 信 模 付 的 性 能 ， 以 及 应 该 伦 多 少 焰 力 来 进 
行 调整 。 

老板 回答 说 ， 这 个 模型 的 输出 (对 一 个 区 域 房 价 中 位 数 的 预测 〉 将 
会 跟 其 他 许多 信号 出 一 起 被 传输 给 另 一 个 机 器 学 习 系 统 〈 见 图 2-2) 。 
而 这 个 下 游 系 统 将 锌 用 来 决策 一 个 给 定 的 区 域 是 否 值 得 投资 。 因 为 直接 
影响 到 收益 ， 所 以 正确 获得 这 个 信息 至 关 重 要 。 


























你 的 组 件 。 ”其 他 信号 


区 域 
价格 计算 











区 域 数据 区 域 价格 数据 投资 
图 2-2: 一 个 针对 房地产 投资 的 机 器 学 习 流 水 线 
流水 线 


一 个 序列 的 数据 处 理 组 件 称 为 一 个 数据 流水 线 (Pipeline〉。 流 水 
I 
能 应 用 。 


组 件 通 常 是 异步 运行 。 每 个 组 件 拉 取 大 量 的 数据 ， 然 后 进行 处 理 ， 
再 将 结果 传输 给 男 一 个 数据 仓库 ;一段 时 间 之 后 ， 流 水 线 中 的 下 一 个 组 
件 会 拉 取 前 面 的 数据 ， 并 给 出 目 己 的 输出 ， 以 此 类 推 。 每 个 组 件 都 很 独 
并 ; 组 件 和 组 件 之 间 的 连接 只 有 数据 仓库 。 这 使 得 整个 系统 非常 简单 易 
懂 (在 数据 流 图 表 的 帮助 站) ， 不 同 团队 可 以 专注 于 不 同 的 组 件 上 。 如 
打 茶 个 组 件 发 生 故 障 ， 它 的 下 游 组 件 还 能 使 用 前 面 的 最 后 一 个 输出 继续 
正常 运行 《至 少 一 段 时 间 ) ， 所 以 使 得 整体 架构 鲁 棒 性 较 强 。 


当然 ， 从 为 一 方面 来 说 ， 如 果 没 有 实施 适当 的 监控 ， 坏 挥 的 组 件 可 
能 在 一 段 时 间 内 都 无 人 有 发现， 那么 过 期 数据 会 导致 整个 系统 的 性 能 


降 








要 向 老板 询问 的 第 二 个 问题 ， 是 当前 的 解决 方案 (如 果 有 的 话 )。 
你 可 以 将 其 当 作 参 考 ， 也 能 从 中 获得 解决 问题 的 洞察 。 老 板 回 答 说 ， 现 
在 是 由 专家 团队 在 手动 估算 区 域 的 住房 价格 一 一 一 个 团队 持续 收集 最 新 
的 区 域 信息 (不 包括 房价 中 位 数 ) ， 然 后 使 用 复杂 的 规则 来 进行 估算 。 





既 晶 贵 又 耗 时 ， 而 且 估算 结果 还 不 令 人 满意 ， 显 著 误 差 率 高 达 1596。 
好 的 ， 有 了 这 些 信 息 ， 你 现在 可 以 开始 设计 系统 了 。 首 先 ， 你 需要 


回答 框架 问题 : 是 监督 式 ? 还 是 无 监督 式 ? 又 或 者 是 强化 学 习 ? 是 分 类 
任务 、 回 归 任 务 还 是 其 他 任务 ? 应 该 使 用 批量 学 习 还 是 在 线 学 习 技术 ? 
在 继续 阅读 之 前 ， 请 先 暂 停 一 会 儿 ， 尝 试 回答 一 下 这 些 问 题 。 


找到 答案 了 吗 ? 我 们 来 看 看 : 显然 ， 这 是 一 个 典型 的 监督 式 学 习 任 
务 ， 因 为 已 经 给 出 了 标记 的 训练 示例 〈 每 个 实例 都 有 预期 的 产 出 ， 也 就 
是 该 地 区 的 房价 中 位 数 ) 。 并 且 这 也 是 一 个 典型 的 回归 任务 ， 因 为 你 要 
对 汞 个 值 进行 预测 。 更 具体 地 说 ， 这 是 一 个 多 变量 回归 问题 ， 因 为 系统 
要 使 用 多 个 特征 进行 预测 《使 用 到 区 域 的 人 口 、 收 入 中 位 数 等 ) 。 在 第 
1 章 预 测 生活 满意 度 时 ， 我 们 仅 基 于 人 均 GDP 这 一 个 特征 ， 所 以 那 是 一 
个 单 变 量 回归 问题 。 最 后 ， 我 们 没有 一 个 连续 的 数据 流 不 断 流 进 系统 ， 
所 以 不 需要 针对 变化 的 数据 做 出 特别 调整 ， 数 据 量 也 不 是 很 大 ， 不 需要 
多 个 内 存 ， 所 以 简单 的 批量 学 习 应 该 就 能 胜任 。 

















全 如果 数据 量 巨大 ， 你 可 以 将 批量 学 习 工 作 分 到 多 个 服务 器 〈 利 
用 MapReduce 技 术 ， 后 面 将 会 介绍 ) ， 也 可 以 使 用 在 线 学 习 技 术 。 


选择 性 能 指标 

接 下 来 是 要 选择 一 个 性 能 衡量 指标 。 回 归 问 题 的 典型 性 能 衡量 指标 
古 均 方 根 误 产 RMSE) ， 它 测量 的 是 预测 过 程 中 ， 预 测 错 误 的 标准 偏 
差 巾 。 例 如 ，RMSE 等 于 50000 就 意味 着 ， 系 统 的 预测 值 中 约 68% 沙 在 


50000 美 元 之 内 ， 约 95% 落 在 100000 美 元 之 内 针 。 公 式 2-1 是 RMSE 的 数 
学 人 计算 公式 \。 


公式 2-1: 均 方 根 误差 (RMSE) 











RMSE(X,h) = 





Ar 口 


di 
这 个 公式 引入 了 几 个 十 分 常见 的 机 器 学 习 符 写 ， 我 们 将 在 本 书 中 沿 


-m 是 你 在 测量 RMSE 时 ， 所 使 用 的 数据 集中 实例 的 数量 。 


例如， 如 果 你 在 评估 RMSE 时 使 用 的 验证 集 里 包含 2000 个 区 域 ， 则 
m=2000。 


X 是 数据 集中 ， 第 个 实例 的 所 有 特征 值 的 向 量 ( 标 签 特征 除 
外 ) ，y “? 是 标签 〈 也 就 是 我 们 期 待 该 实例 的 输出 值 ) 。 


例如， 如 果 数 据 集 的 第 一 个 区 域 位 于 经 度 -118.29"， 纬 度 33.91%， 
居民 数量 为 1416， 平 均 收 入 为 38372 美 元 ， 房 价 中 位 数 为 156400 美 元 


暂且 忽略 其 他 特征 ) ， 那 么 : 
一 198. 29 


3 中 
] 416 
38 372 





(1) 


和 井上; 


六 ”= 156 400 


X 是 数据 集中 所 有 实例 的 所 有 特征 值 的 矩阵 《标记 特征 除外 ) 。 





个 实例 为 一 行 ， 也 就 是 说 ， 第 i 行 等 于 x “i? 的 转 置 矩 阵 ， 记 作 
(x (i? ) T。 [4 


例如， 刚刚 描述 的 第 一 个 区 域 ， 和 矩阵 X 即 为 如 下 所 示 : 


(a 


Y - le 33.9] 1410 38312 


(1999) \ 7 
(x ) 
(2000) \ 了 
人 
h 是 系统 的 预测 函数 ， 也 称 为 一 个 假设 。 当 给 定 系统 一 个 实例 的 特 


{Ds 


征 向 量 x G) ， 它 会 输出 一 个 预测 值 了 "=h(X) (了 读 作 “y-hat”)》。 


例如， 如 果 系 统 预测 第 一 个 区 域 的 房价 中 位 数 为 158400 美 元 ， 则 
$=h (x 40 ) =158400。 该 区 域 的 预测 误差 为 “-y (1) =2000。 

.RMSE (X，h) 是 使 用 假设 h 在 示例 上 测量 的 成 本 函数 。 

我 们 使 用 小 写 的 斜体 字体 表示 标量 值 〈 例 如 m 和 y ' 忆 ) 和 函数 名 


(例如 h) ， 小 写 黑 体 字 表示 向 量 〈 例 如 x “i?) ， 大 写 黑体 字 表 示 和 矩阵 
(例如 X) 


即便 RMSE 通 党 是 回归 任务 的 首选 性 能 衡量 指标 ， 但 在 茶 些 情况 
下 ， 其 他 函数 可 能 会 更 适合 。 例 如 ， 当 有 很 多 离 群 区 域 时 ， 你 可 以 考虑 
使 用 平均 绝对 误差 〈 也 称 为 平均 绝对 偏差 ， 参 见 公 式 2-2) 。 


六 二 22 于 罗纹 于 谍 关 

















MAE(X, hh) = 一 六 | ) -7 


均 方 根 误差 和 平均 绝对 误差 两 种 方法 都 是 测量 两 个 同 量 之 间 的 距 
离 : 预测 向量 和 目标 值 癌 量 。 距 离 或 者 范 数 的 测度 可 能 有 多 种 : 

:计算 平方 和 的 根 (RMSE ) 对 应 欧 几 里 得 函数 : 它 应 该 是 你 比较 熟 
悉 的 距离 概念 。 也 称 之 为 2 范 数 ， 记 作 | 或 者 | 。 











-计算 绝对 值 的 总 和 (MAE) 对 应 {1 范 数 ， 记 作 ||"1。 有 时 它 也 被 
称 为 曼哈顿 距离 ， 因 为 它 在 测量 一 个 城市 的 两 点 之 间 的 距离 时 ， 只 能 沿 
着 正 交 的 城市 街区 行走 。 


:更 笼统 地 说 ， 包 含 n 个 元 素 的 向 量 w 的 范 数 可 以 定义 为 
vl 三 (和 | 呈 +|wl9 .to 仅仅 给 出 了 向 量 的 基数 “〈 即 元 素 的 数 
量 ) ，t= 而 给 出 了 向 量 中 的 最 大 绝对 值 。 


: 范 数 指数 越 高 ， 则 越 关 注 大 的 价值 ， 忽 视 小 的 价值 。 这 惑 是 为 什 
么 RMSE 比 MAE 对 异常 值 更 敏感 。 但 是 当 异 常 值 非常 稀少 《例如 钟 形 曲 
线 ) 时 ，RMSE 的 表现 优异 ， 通 名 作为 首选 。 


检查 假设 


最 后 ， 列 举 和 验证 到 目前 为 止 《 由 你 或 者 其 他 人 ) 做 出 的 假设 ， 是 
一 个 非常 民 好 的 习惯 ， 这 可 以 在 初期 检查 出 严重 问题 。 例 如 ， 当 我 们 的 
机 器 学 习 系 统 输出 区 域 价格 给 下 游 系 统 时 ， 我 们 的 假设 是 价格 会 被 使 
用 。 但 是 ， 如 果 下 游 系 统 实 际 上 是 将 价格 转换 成 为 类 别 〔 例 如 ， 廉 价 、 
中 等 或 者 昂贵 ) ， 转 而 使 用 这 些 类 别 ， 而 不 是 价格 本 号 呢 ? 在 这 种 情形 
下 ， 并 不 需要 完全 准确 地 预 估价 格 ， 你 的 系统 只 需要 得 出 正确 的 类 别 就 
够 / 。 如 果 是 这 种 情况 ， 那 么 这 个 问题 应 该 被 设 定 为 分 类 任务 而 不 是 回 
归 任 务 。 你 肯定 不 会 愿意 在 回归 系统 上 努力 了 几 个 月 之 后 才 发 现 这 点 。 


























羊 运 的 是 ， 跟 下 洲 系 统 的 团队 聊 过 之 后 ， 证 实 需要 的 确实 是 价格 而 
不 是 类 别 。 很 好 ! 一 切 就 绪 ， 绿 灯 已 经 之 了 ， 现 在 可 以 开始 编程 了 ! 


[提供 给 机 器 学 习 系统 的 信息 通常 被 称 为 信号 ， 可 参考 香农 的 信息 理 
记 : 你 需要 的 是 高 信 噪 比 。 

[2] 标准 偏 甜 ， 通 常 标记 为 o (希腊 字母 sigma) ， 是 方差 的 算术 平方 
根 ， 而 方差 是 离 均 平 方差 的 平均 数 。 

[3] 一 种 常见 的 特征 分 布 是 呈 钟 形态 的 分 布 ， 称 为 正 态 分 布 〈 也 叫 高 斯 
分 布 ) ，“68-95-99.7” 的 规则 是 指 : 大 约 68% 的 值 落 在 1 内 ，95% 落 在 2G 
内 ，99.7% 落 在 30 内 。 

[4] 回顾 一 下 ， 转 置 运算 符 会 将 列 向 量 转 成 行 回 量 (反之 亦 然 )。 




















获取 数据 

现在 是 着 手动 工 的 时 候 了 。 不 要 犹豫 ， 打 开 你 的 笔记 本 电脑 ， 先 过 
一 遍 Jupyter 笔 记 本 里 的 代码 示例 。 完 整 的 Jupyter 示 例 可 以 通过 获得 。 
创建 工作 区 


首先 ， 你 需要 安装 Python。 你 可 能 早已 经 装 好 了 ， 如 果 还 没有 ， 你 
可 以 在 https:/www.python.org/[11 上 获取 。 


接 下 来 ， 你 需要 为 机 器 学 习 的 代码 和 数据 集 创建 一 个 工作 区 目录 。 
打开 Terminal 输 入 以 下 命令 行 〈 在 $ 提 示 符 之 后 ) : 














$ export ML_PATH="$HOME/m1" # You can change the path if you prefer 
$ mkdir -p $ML_PATH 





此 外 ， 你 还 需要 一 些 Python 模块 : Jupyter、Pandas、NumPy、 
Matplotlib 以 及 Scikit-Learm。 如 果 你 已 经 安装 好 了 所 有 这 些 模块 ， 并 运 
行 了 Jupyter， 那 么 可 以 跳 到 “下 载 数 据 ” 一 节 。 如 果 还 没有 完全 安装 所 有 
模块 (以 及 它们 的 依赖 ) ， 以 下 有 多 种 办 法 进行 安装 。 可 以 使 用 系统 的 
包 管 理 器 进行 安装 (例如 ，Ubunto 的 apt-get， 或 者 是 Mac OS 上 的 
MacPorts 和 Homebrew 等 ) ， 安 装 一 个 Scientific Python 的 分 文 ， 例 如 
Anaconda， 然 后 使 用 其 包 管 理 器 ， 又 或 者 是 直接 使 用 Python 自 己 的 包 管 
理 器 pip， 默 认 情 况 下 ，“【〔 自 2.7.9 版 本 之 后 〉 欠 Python 的 二 进 制 安 装 程序 
里 应 该 都 包含 pip。 你 可 以 输入 以 下 命令 行 查看 是 否 安装 了 pip: 











$ pip3 --version 
pip 9.0.1 from [...]/lib/python3.5/site-packages (python 3.5) 








请 确保 安装 的 pip 版 本 是 最 新 的 ， 至 少 是 1.4 版 之 后 的 才能 文 持 二 进 
制 模块 安装 (a.k.a.wheels) 。 要 升级 pip 模 块 ， 请 输入 : 是 





$ pip3 install --upgrade pip 
Collecting pip 


[...] 
Successfully installed pip-9.0.1 





创建 一 个 隔离 环境 


如 果 你 希望 在 一 个 隅 离 的 环境 里 工作 (强烈 推荐 ， 这 样 你 可 以 在 库 
版 本 不 冲突 的 情况 下 处 理 不 同 的 项 目 ) ， 可 以 通过 运行 以 下 pip 命 令 来 


安装 virtualenv: 











$ pip3 install --user --upgrade virtualenv 
Collecting virtualenv 


Successfully installed virtualenv 





输入 以 下 命令 创建 一 个 隔离 的 Python 环 境 : 





$ cd $ML_PATH 

$ virtualenv env 

Using base prefix '[...]' 

New python executable in [...]/ml/env/bin/python3.5 
Also creating executable in [...]/ml/env/bin/python 
Installing setuptools, pip, wheel...done. 





现在 开始 ， 每 当 想 要 激活 这 个 环境 上 时， 只 需要 打开 终端 并 输入 : 





$ cd $ML_PATH 
$ source env/bin/activate 





当 这 个 环境 处 于 激活 状态 时 ， 你 使 用 pip 安 装 的 任何 软件 包 都 将 被 
安装 在 这 个 隔离 的 环境 中 ，Python 只 拥有 这 些 包 的 访问 权限 (如 果 你 还 
锅 望 访问 系统 站 点 的 软件 包 ， 则 需要 使 用 virtualenv 的 --system-site- 
packages 命 令 选项 ) 。 更 多 详情 可 以 参考 virtualenv 的 文档 。 


现在 可 以 安装 必须 的 模块 及 其 依赖 项 了 ， 使 用 简单 的 pip 命 令 : 





$ pip3 install --upgrade jupyter matplotlib numpy pandas scipy scikit-learn 
Collecting jupyter 

Downloading jupyter-1.0.0-py2.py3-none-any .whl 
Collecting matplotlib 


[...] 





要 检查 安装 ， 请 答 试 如 下 代码 导入 每 个 模块 : 











$ python3 -c "import jupyter, matplotlib, numpy, pandas, scipy, sklearn" 





应 该 不 会 有 输出 或 错误 出 现 ， 现 在 你 可 以 输入 以 下 命令 来 启动 
Jupyter: 





$ jupyter notebook 

[I 15:24 NotebookApp] Serving notebooks from local directory: [...]/ml 

[I 15:24 NotebookApp] © active kernels 

[I 15:24 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/ 
[I 15:24 NotebookApp] Use Control-C to stop this server and shut down all 
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一 个 Jupyter 服 务 器 正在 你 的 终端 中 运行 ， 监 听 端 口 为 8888。 你 可 以 
打开 浏览 器 ， 输 入 http:/localhost:8888/ 访 问 该 服务 器 〈 通 常服 务 器 启动 
时 会 自动 运行 )， 可 以 看 到 一 个 空 的 工作 区 目录 (如 果 你 遵循 了 上 述 
virtualenv 指 令 ， 这 时 仅 包含 env 目 录 ) 


点 击 New 按 钮 ， 选 择 适 当 的 Python 版 本 ， 创 建 一 个 Python 笔记 本 包 
( 见 图 2-3〉。 








这 里 包含 三 件 事 : 首先 ， 它 会 在 你 的 工作 区 中 创建 一 个 名 为 
Untitled.ipynb 的 新 笔记 本 文件 ， 然 后 ， 启 动 Jupyter Python 内 核 来 运行 这 
个 文件 ， 最 后 在 浏览 器 新 标签 里 打开 这 个 笔记 本 。 先 点 击 Untitled 将 这 
个 笔记 本 重 命 名 为 “Housing”( 文 件 将 自动 被 重 命 名 为 housing.ipynb)。 
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图 2-3: 你 的 Jupyter 工 作 间 


一 个 笔记 本 内 包含 一 个 单元 格 列表 ， 每 个 单元 格 可 以 是 可 执行 代码 
或 格式 化 的 文本 。 现 在 ， 这 个 笔记 本 只 有 一 个 空 的 代码 单元 ， 标 记 
为 “In[1]: ”。 在 单元 格 输入 print ("Hello world! ") ， 然 后 单 击 执行 按 
钮 (参见 图 2-4) 或 是 按 组 合 键 “Shift+Enter"。 这 时 ， 当 前 单元 格 会 被 送 
到 这 个 笔记 本 的 Python 内 核 ， 运 行 并 返回 输出 结果 。 结 果 显 示 在 单元 格 
下 方 ， 同 时 因为 我 们 到 了 笔记 本 的 末尾 ， 因 此 还 会 自动 创建 一 个 新 的 单 
元 格 。 更 多 的 基础 知识 可 以 从 Jupyter 的 帮助 菜单 “User Interface Tour” 中 
了 解 。 
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In [1]; printi "Hello world!" 


Hello world! 





In [ ]: 








图 2-4: Python 笔 记 本 的 Hello world 


下 载 数 据 


在 一 般 环境 下 ， 你 的 数据 存储 在 关系 型 数据 库 里 ， 并 分 布 在 多 个 
表 / 文 档 /文件 中 。 访 问 前 ， 你 需要 先 获 得 证 书 (credentials〉 和 访问 权 
限 馈 ， 并 熟悉 数据 库 模 式 。 不 过 在 这 个 项 目 中 ， 事 情 要 简单 得 多 : 你 只 
需要 下 载 一 个 压缩 文件 housing.tgz 即 可 ， 这 个 文件 已 经 包含 所 有 的 数据 
一 一 一 个 以 逗号 来 分 隔 值 的 CSV 文 档 housing.csv。 


你 可 以 选择 使 用 浏览 器 下 载 压 缩 包 ， 运 行 tar xzf housing.tgz 来 解压 
缩 并 提取 CSV 文 件 ， 但 更 好 的 选择 是 创建 一 个 简单 函数 来 实现 它 。 匹 其 
是 当 数 据 会 定期 发 生变 化 时 ， 这 个 函数 非常 有 用 ， 你 可 以 编写 一 个 小 脚 
本 ， 在 需要 获取 最 新 数据 时 ， 直 接 运 行 〈 或 者 也 可 以 设置 一 个 定期 自动 
运行 的 计划 任务 ) 。 如 有 果 需 要 在 多 人 台 机 器 上 安装 数据 集 ， 这 个 自动 获取 
数据 的 函数 也 非常 好 用 。 


获取 数据 的 函数 饵 如 下 : 


























import os 
import tarfile 
from six.moves import urllib 


DOWNLOAD_ ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/" 
HOUSING_ PATH = "datasets/housing" 


HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz" 

def fetch_housing_data(housing_url=HOUSING_ URL, housing_path=HOUSING_PATH): 
if not os.path.isdir(housing_path): 

os.makedirs(housing_path) 

tgz_path = os.path.join(housing_path, "housing.tgz") 
urllib.request.urlretrieve(housing_uril, tgz_path) 
housing_ tgz = tarfile.open(tgz_path) 
housing_tgz.extractall(path=housing_path) 
housing_tgz.close() 





现在 ， one, _housing_data〈) ， 会 自动 在 工作 区 中 创建 
一 个 datasets/housing 目 录 ， 然 后 下 载 housing. tgz 文 件 ， 并 将 housing.csv 解 
压 到 这 个 目录 。 


现在 我 们 来 使 用 Pandas 加 载 数 据 。 你 也 应 该 写 一 个 小 函数 来 加 载 数 
局: 





import pandas as pd 


def load_housing_data(housing_path=HOUSING_PATH ) : 
csv_path = os.path.join(housing_path, "housing.csv") 
return pd.read_ csv(csv_path) 





这 个 函数 会 返回 一 个 包含 所 有 数据 的 Pandas DataFrame 对 象 。 
快速 查看 数据 结构 


我 们 来 看 看 使 用 DataFrames 的 head () 方法 之 后 的 前 五 行 是 怎样 的 
( 见 图 2-5) 。 











In [5]: housing = load housing datal() 
housing, head| ) 





0 -1229 37.88 141.0 880.0 


Out lS]! longitude latitude | housing_median_age total_rooms |total_bedrooms 
1 -2 37,86 121.0 7099,0 1106.0 


2 -224 97,85 1520 1467.0 0 | 


3-12225 |3785 520 12740 
-425 9785 |520 16270 |2800 


图 2-5: 数据 集 前 五 行 
每 一 行 代表 一 个 区 ， 总 共有 10 个 属性 《在 图 2-5 中 可 











及 ocean_proximity。 


通过 info《〈) 方法 可 以 快速 获取 数据 集 的 简单 描述 ， 
数 、 每 个 属性 的 类 型 和 非 空 值 的 数量 〈 见 图 2-6) 。 





populatiol 
922,0 
2401.0 
496.0 
558.0 
565.0 


以 看 到 前 6 
: longitude, latitude, housing median age, total rooms, total_bed 
rooms, population, households, median income, median house_value 以 


特别 是 总 行 











In [6]! housing,info 


<class “pandas ,Core,frame,DataFrame > 
RangeIndex; 20640 entries, 0 to 20639 
Data columns (total 10 columns): 


longitude 20640 non-null float64 
latitude 20640 nonwnull float64 
housing median age 20640 non-null float64 
total rooms 20640 non-null float64 
total bedrooms 20433 non-null float64 
population 20640 non-null float64 
households 20640 non-null float64 
median income 20640 non-null float64 
median house value 20640 non-null float64 
ocean proximity 20640 non-null object 


dtypes; float64(9), object(1) 
memory usage: 1,6+ MB 


图 2-6: 住房 信息 


数据 集中 包含 20640 个 实例 ， 以 机 器 学 习 的 标准 来 看 ， 这 个 数字 非 
常 小 ， 但 却 是 个 完美 的 开始 。 注 意 ，total _ bed 这 个 属性 只 \ 有 20433 个 非 
室 值 ， 这 运 意味 着 有 207 不 区 域 缺 拓 这 个 特征 。 我 们 后 面 需 要 考虑 到 这 














所 有 属性 的 字段 都 是 数字 ， 除 了 ocean_proximity。 它 的 类 型 是 
object， 因此 它 可 以 是 任何 闫 型 的 Python 对 象 不 过 你 是 从 CSV 文 件 中 
加 载 了 该 数据 ， 所 以 它 必 然 是 文本 属性 。 通 过 查看 前 五 行 ， 你 可 能 会 注 
意 到 ， 该 列 中 的 值 是 重复 的 ， 这 意味 着 它 有 可 能 是 一 个 分 类 属性 。 你 可 
以 使 用 value_counts 〈) 方法 但 看 有 多 少 种 分 类 存在 ， 每 种 类 别 下 分 别 
有 多 少 个 区 域 : 








>>> housing["ocean proximity"].value_ counts() 


<1H OCEAN 9136 
INLAND 6551 
NEAR OCEAN 2658 
NEAR BAY 2290 


ISLAND 5 
Name: ocean_ proximity, dtype: int64 





再 来 看 看 其 他 区 域 ， 通 过 describe () 方法 可 以 显示 数值 属性 的 摘 


要 ( 见 图 2-7) 。 





In [8]: ] housing,describe() 





Out[9]! longitude latitude housing_median_age |total_ rooms |total_bedr 
count |20640,000000 |20640,000000 20640,000000 20640,000000 |20433,000( 
mean | -119.569704 |35.631861 |28.639486 2635.763081 |537.87055¢ 
std 12,003532 |2,135952 12.585558 2181,615252 | 421.38507( 
min |-124.350000 |32,540000 ”|1,000000 2000000 11000000 
25% | -121.800000 133.930000 118.000000 1447.750000 | 296.00000( 
50% | -118.490000 |34.260000 |29.000000 2127.000000 |435,00000C 
75% | -118.010000 |37,710000 /37,000000 9148.000000 |647,00000( 
max |-114.310000 141.950000 /52.000000 39320,000000 | 6445.0000( 























图 2-7: 数值 属性 的 摘要 


count、mean、min 以 及 max 行 的 意思 很 清楚 。 需 要 注意 的 是 ， 这 里 
的 空 值 会 被 忽略 (因此 本 例 中 ， total_ bedrooms 的 count 是 20433 而 不 是 
20640) 。std 行 显示 的 是 标准 差 〈 用 来 测量 数值 的 离散 程度 ) 。25%、 
50% 和 75% 行 显示 相应 的 百 分 位 数 : 百 分 位 数 表 示 一 组 观测 值 中 旨 合 定 百 
分 比 的 观测 值 都 低 于 该 值 。 例 如 ， 对 于 housing_median_age 的 值 ，25% 
的 区 域 低 于 18，50% 的 区 域 低 于 29， 以 及 75% 的 区 域 低 于 37。 这 些 通常 
被 称 为 : 目 分 之 二 十 五 分 位 数 〈 或 者 第 一 四 分 位 数 ) 、 中 位 数 以 及 百 分 
之 七 十 五 分 位 数 〈 或 者 第 三 四 分 位 数 ) 。 


另 一 种 快速 了 解数 据 类 型 的 方法 是 绘制 每 个 数值 属性 的 直方 图 。 直 
方 图 用 来 显示 给 定 值 范围 〈 横 轴 ) 的 实例 数量 〈 纵 轴 ) 。 你 可 以 一 次 绘 
制 一 个 属性 ， 也 可 以 在 整个 数据 集 上 调用 hist 〈() 方法 ， 绘 制 每 个 属性 
的 直方 图 〈 见 图 2-8) 。 比 如 我 们 可 以 看 到 ， 超 过 800 个 区 域 的 
median house_value 大 约 在 50 万 美元 。 




















%matplotlib inline # only in a Jupyter notebook 
import matplotlib.pyplot as pilt 
housing.hist(bins=50, figsize=(20,15)) 
plt.show() 
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图 2-8: 每 个 属性 的 直方 图 


As () 方法 依赖 于 Matplotlib， 而 Matplotlib 又 依赖 于 用 户 指定 
的 图 形 后 端 才能 在 屏幕 上 完成 绘制 。 所 以 在 绘制 之 前 ， 你 需要 先 指定 








Matplotlib 使 用 哪个 后 台 。 最 简单 的 选择 是 使 用 Jupyter 的 神奇 命 

令 %matplotlib inline。 它 会 设置 Matplotlib 从 而 使 用 Jupyter 自 己 的 后 端 ， 
随后 网 形 会 在 笔记 本 上 呈现 。 需 要 注意 的 是 ， 因 为 Jupyter 在 执行 每 个 单 
元 格 时 会 自动 显示 图 形 ， 所 以 在 Jupyter 笔 记 本 中 调用 show 〈) 是 可 选 
的 。 


回 到 直方 图 ， 请 注意 以 下 几 点 : 


1. 首 先 ， 收 入 中 位 数 这 个 属性 看 起 来 不 像 是 用 美元 CUSD) 在 衡 
量 。 经 与 收集 数据 的 团队 核实 ， 你 得 知 数据 已 经 按 比例 缩小 ， 并 框 出 中 
位 数 的 上 限 为 15〈 实 际 为 15.0001) ， 下 限 为 0.5《〈 实 际 为 0.4999) 。 在 
机 器 学 习 中 ， 使 用 经 过 预 处 理 的 属性 是 很 常见 的 事情 ， 倒 不 一 定 是 个 问 
题 ， 但 是 你 至 少 需要 了 解数 据 是 如 何 计算 的 。 


2. 房 龄 中 位 数 和 房价 中 位 数 也 被 设 定 了 上 限 。 而 后 者 正 是 你 的 目标 
属性 (标签; ， 这 可 是 个 大 问题 。 因 为 你 的 机 器 学 习 算法 很 可 能 会 学 习 
到 价格 永远 不 会 超过 这 个 限制 。 所 以 你 需要 再 次 与 客户 《使 用 你 系统 的 
输出 的 团队 ) 进行 核实 ， 碍 看 是 否 存在 问题 。 如 条 他 们 告诉 你 ， 他 们 需 
要 精确 的 预测 值 ， 甚 至 可 以 超过 50 万 美元 ， 那 么 ， 通 常 你 有 两 个 选择 : 


a. 对 那些 标签 值 被 设置 了 上 限 的 地 区 ， 重 新 收集 标签 值 。 


b. 或 是 将 这 些 地 区 的 数据 从 训练 集中 移 除 (包括 从 测试 集中 移 除 ， 
因为 如 果 预 测 值 超过 500000， 系 统 不 应 被 评估 为 不 良 )。 


3. 这 些 属 性 值 被 缩放 的 程度 各 不 相同 。 这 点 将 在 本 章 后 文 探索 特征 
的 缩放 时 ， 再 做 讨论 。 

4. 最 后 ， 许 多 直方 图 都 表现 出 重 尾 : 图 形 在 中 位 数 右 侧 的 延伸 比 左 
侧 要 远 得 多 。 这 可 能 会 导致 某 些 机 器 学 习 算法 难以 检测 模式 。 稍 后 我 们 
会 竹 试 一 些 转 化 方法 ， 将 这 些 属性 转化 为 更 偏向 钟 形 的 分 布 。 


相信 现在 你 对 正在 处 理 的 数据 应 该 有 了 更 好 的 理解 。 
































全 ss， 在 进一步 查看 数据 之 前 ， 你 需要 先 创建 一 个 测试 集 ， 然 
后 即 可 将 其 放置 一 和 劳 ， 不 用 过 多 理会 。 


创建 测试 集 


在 这 个 阶段 主动 搁置 部 分 数据 听 起 来 可 能 有 点 奇怪 。 毕 部， 你 才 只 
古 简单 浏览 了 一 下 数据 而 已 ， 在 决定 用 什么 算法 之 前 ， 妆 然 还 需要 了 解 
更 多 的 知识 ， 对 吧 ? 没 错 ， 但 是 大 脑 是 个 非常 神奇 的 模式 检测 系统 ， 也 
就 是 说 它 很 容易 过 度 匹 配 : 如果 是 你 本 人 来 浏览 测试 集 数据 ， 你 很 可 能 
会 跌 入 茶 个 看 似 有 趣 的 数据 模式 ， 进 而 选择 东 个 特殊 的 机 器 学 习 模型 。 
然后 当 你 再 使 用 测试 集 对 泛 化 误差 率 进 行 估算 时 ， 售 计 结 果 将 会 过 于 乐 
观 ， 该 系统 局 动 后 的 表现 将 不 如 预期 那 般 优秀 。 这 叫 作 数 据 宽 探 偏 误 


(data snooping bias) 。 


理论 上 ， 创 建 测试 集 非 党 简单 : 只 需要 随机 选择 一 些 实例 ， 通 党 是 
数据 集 的 20%， 然 后 将 它们 放 在 一 边 : 




















import numpy as np 


def split_ train test(data, test_ratio): 
shuffled_ indices = np.random,.permutation(len(data)) 
test_set_ size = int(len(data) * test_ratio) 
test_indices = shuffled_indices[:test set_ sizel] 
train_indices = shuffled indices[test_ set_ size:] 
return data.iloc[train indices], data.iloc[test_ indices] 





你 可 以 这 样 使 用 如 下 函数 : 





>>> train_set, test_set = split_ train_ test(housing, 0.2) 
>>> print(len(train_ set), "train +", lJen(test_ set), "test") 
16512 train + 4128 test 





是 的 ， 这 确实 能 行 ， 但 这 并 不 完美 :如果 你 再 运行 一 授 ， 它 义 会 产 
生 一 个 不 同 的 数据 集 ! 这 样 下 去 ,你 (或 者 是 你 的 机 器 学 习 算法 ) 将 会 
看 到 整个 完整 的 数据 集 ， 而 这 正 是 创建 测试 集 时 需要 避免 的 。 


解决 方案 之 一 是 在 第 一 次 运行 程序 后 即 保存 测试 集 ， 随 后 的 运行 只 
是 加 载 它 而 已 。 男 一 种 方法 是 在 调用 np.random.permutation() 之 前 设 
置 一 个 随机 数 生成 器 的 种 子 (例如 ，np.random.seed (42) ) 四， 从 而 
让 它 始 终生 成 相同 的 随机 索引 。 


但 是 ， 这 两 种 解决 方案 在 下 一 次 获取 更 新 的 数据 时 都 会 中 断 。 秆 见 
的 解决 办 法 是 每 个 实例 都 使 用 一 个 标识 符 (identifier) 来 决定 是 否 进 入 











测试 集 ( 假 定 每 个 实例 都 有 一 个 唯一 旦 不 变 的 标识 符 ) 。 举 例 来 说 ， 你 
可 以 计算 每 个 实例 标识 符 的 hash 值 ， 只 取 hash 的 最 后 一 个 字 节 ， 如 果 该 
值 小 于 等 于 51 〈 约 256 的 20%) ， 则 将 该 实例 放 入 测试 集 。 这 样 可 以 确 
保 测 试 集 在 多 个 运行 里 都 是 一 致 的 ， 即 便 更 新 数据 集 也 仍然 一 致 。 新 实 
例 的 20% 将 被 放 入 新 的 测试 集 ， 而 之 前 训练 集中 的 实例 也 不 会 被 放 入 新 
测试 集 。 实 现 方式 如 下 : 





import hashlib 


def test_ set check(identifier, test_ratio, hash): 
return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio 


def split train test_ by_id(data, test_ratio, id column, hash=hashlib.md5): 
ids = data[id_column] 
In_test_set = ids.apply(lambda id_: test set check(id , test_ratio, hash)) 
return data.loc[~in_ test_ set], data.loc[in_ test_ set] 





不 钼 的 是 ，housing 数 据 集 没有 标识 符 列 。 最 简单 的 解决 方法 是 使 用 
行 索引 作为 ID: 





housing_with_id = housing.reset_index() # adds an ‘index column 
train_set, test_ set = split train test by_id(housing with id, 0.2, "index") 








如 琳 使 用 行 索 引 作 为 唯一 标识 符 ， 你 需要 确保 在 数据 集 的 末尾 添加 
新 数据 ， 并 且 不 会 删除 任何 行 。 如 末 不 能 保证 这 点 ， 那 么 你 可 以 尝试 使 
用 某 个 最 稳定 的 特征 来 创建 唯一 标识 符 。 例 如 ， 一 个 地 区 的 经 纬度 肯定 
几 百 万 年 都 不 会 变 ， 所 以 你 可 以 将 它们 组 合成 如 下 的 ID: 图 





housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude"] 
train_set, test_ set = split train test by_id(housing with_ id, 0.2, "id") 








Scikit-Leam 提 供 了 一 些 函 数 ， 可 以 通过 多 种 方式 将 数据 集 分 成 多 个 
子 集 。 最 简单 的 函数 是 train_test_split， 它 与 前 面 定义 的 函数 
split_train_test 几 乎 相同 ， 除 了 几 个 额外 特征 。 首 先 ， 它 也 有 
random_state 参 数 ， 让 你 可 以 像 之 前 提 到 过 的 那样 设置 随机 生成 堪 种 
子 ; 其 次 ， 你 可 以 把 行 数 相同 的 多 个 数据 集 一 次 性 发 送 给 它 ， 它 会 根据 
相同 的 索引 将 其 拆 分 〈 例 如 ， 当 你 有 一 个 单独 的 DataFrame 用 于 标记 
时 ， 这 就 非常 有 用 〉: 





from sklearn.model_ selection import train_test_Ssp1jt 
train_set，test_set = train_test_split(housing，test_size=0.2，random_state=42 ) 


到 目前 为 止 ， 我 们 已 经 思考 过 了 纯 随 机 的 抽样 方法 。 如 果 你 的 数据 
集 足 够 庞大 (特别 是 相 较 于 属性 的 数量 而 言 )， 这 种 方式 通常 不 错 ; 如 
果 不 是 ， 则 有 可 能 会 导致 明显 的 抽样 偏差 。 如 果 一 家 调查 公司 想 要 打 电 
话 给 1000 个 人 来 调研 几 个 问题 ， 他 们 不 会 在 电话 夭 中 纯 随 机 挑选 1000 个 
人 。 他 们 试图 确保 让 这 1000 人 能 够 代表 全 体 人 口 。 例 如 ， 美 国人 口 组 成 
为 51.3% 的 女性 和 48.7% 的 男性 ， 所 以 ， 要 想 在 美国 进行 一 场 有 效 的 调 
查 ， 应 该 试图 维持 这 一 比例 : 即 513 名 女性 和 487 名 男性 。 这 就 是 分 层 抽 
样 : 将 人 口 划 分 为 均匀 的 子 集 ， 每 个 子 集 被 称 为 一 层 ， 然 后 从 每 层 抽取 
正确 的 实例 数量 ， 以 确保 测试 集合 代表 了 总 的 人 口 比例 。 如 果 使 用 纯 随 
机 的 抽样 方法 ， 将 有 129% 的 可 能 得 到 采样 偏 斜 的 测试 集 一 一 要 么 女性 比 
例 不 到 49%， 要 么 女性 比例 超过 54%。 不 论 出 现 哪 种 情况 都 会 导致 调查 
结果 出 现 重 大 偏差 。 


如 果 你 咨询 专家 ， 他 们 会 告诉 你 ， 要 预测 房价 平均 值 ， 收 入 中 位 数 
是 一 个 非常 重要 的 属性 。 于 是 你 希望 确保 在 收入 属性 上 ， 测 试 集 能 够 代 
表 整 个 数据 集中 各 种 不 同类 型 的 收入 。 由 于 收入 中 位 数 是 一 个 连续 的 数 
值 属性 ， 所 以 你 得 先 创建 一 个 收入 类 别 的 属性 。 我 们 先 来 看 一 下 收入 中 
位 数 的 直方 图 〈 见 图 2-9) : 

















图 2-9: 收入 类 别 的 直方 图 


大 多 数 收入 中 位 数值 聚集 在 2~5〔 万 美元 ) 左右 ， 但 也 有 一 部 分 远 
远 超 过 了 6 万 。 在 数据 集中 ， 每 一 层 都 要 有 足够 数量 的 实例 ， 这 一 点 至 
关 重 要 ， 不 然 数据 不 足 的 层 ， 其 重要 程度 很 有 可 能 会 被 错 估 。 也 就 是 
说 ， 你 不 应 该 将 层 数 分 得 太 多 ， 每 一 层 应 该 要 足够 大 才 行 。 下 面 这 段 代 
码 是 这 样 创建 收入 类 别 属性 的 :将 收入 中 位 数 除 以 1.5〔 限 制 收 入 类 别 
的 数量 ) ， 然 后 使 用 ceil 进 行 取 整 (得 到 离散 类 别 ) ， 最 后 将 所 有 大 于 5 
的 类 别 合 并 为 类 别 5: 











housing["income_cat"] = np.ceil(housing["median_ income"] / 1.5) 
housing["income_cat"] .where(housing["income cat"] < 5, 5.0, inplace=True) 





现在 ， 你 可 以 根据 收入 类 别 进 行 分 层 抽样 了 。 使 用 Scikitr-Learn 的 
Stratified-Shuffle Split 类 : 





from sklearn.model selection import StratifiedShuffleSplit 


split = StratifiedShuffleSplit(n_ splits=1, test_ size=0.2, random state=42) 
for train_index, test_index in split.split(housing, housing["income_cat"]): 
strat_train_set = housing.1loc[train_ index] 


strat_test_set = housing.loc[test_index] 











看 看 这 个 运行 是 否 如 我 们 所 料 。 首 先 ， 可 以 看 看 所 有 住房 数据 根据 
收入 类 别 的 比例 分 布 : 








>> housing["income_cat"].value counts() / len(housing) 


>>> 
3.0 0.350581 

2.0 

4.0 0.176308 

5.0 

1.0 0.039826 

Name: income cat, dtype: float64 





使 用 类 似 代码 你 还 可 以 测量 测试 集中 的 收入 类 别 比例 分 布 。 图 2-10 
比较 了 在 三 种 不 同 的 数据 集 ( 完 整数 据 集 、 分 层 抽样 的 测试 集 、 纯 随机 
抽样 的 测试 集 〉 中 收入 类 别 的 比例 分 布 。 正 如 你 所 见 ， 分 层 抽 样 的 测试 
集中 的 比例 分 布 与 完整 数据 集中 的 分 布 几乎 一 致 ， 而 纯 随 机 抽样 的 测试 
集结 果 则 出 现 了 重大 偏离 。 


10|0039828 0.04021310.039738 |0.973236 -0.219197 


20 |0318847 0.32437010.318876 |1.732260 -|0.009032 
30|035058 0.358527 | 0.350618 |2.266446 |0.010408 
40 0.176308 |0.167393 |0.176399 -8050994 0.051717 


5,010,114438 |0,109496 | 0,114369 | -4.318974 1-0.060464 











图 2-10: 分 层 抽样 与 纯 随机 抽样 的 抽样 偏差 比较 
现在 你 可 以 删除 income_cat 属 性 ， 将 数据 恢复 原样 了 ， 





for Set in (strat_train_ set, strat_ test_ set): 
set.drop(["income_cat"], axis=1, inplace=True) 





我 们 花 了 相当 长 的 时 间 在 测试 集 的 生成 上 ， 理 由 很 充分 : 这 是 机 器 
学 习 项 目 中 经 常 被 忽视 但 是 却 至 天 重要 的 一 部 分 。 并 且 ， 随 讨论 到 交叉 
验证 时 ， 这 里 谈 到 的 许多 想法 也 对 其 大 有 人 神 荔 。 现 在 ， 是 时 候 进入 下 一 
个 阶段 (数据 探索 ) 了 。 


[1 推荐 最 新 版 Python 3，Python2.7+ 也 可 以 正常 工作 ， 但 是 已 经 被 弃 
用 


[2] 我 们 使 用 的 是 Linux 和 Mac OS 系统 的 bash shell 来 说 明 pip 的 安装 步 
又 。 你 可 能 需要 在 目 己 的 系统 上 对 命令 作出 相应 的 调整 。Windows 系 统 
上 我 们 推荐 安装 Anaconda。 

[3] 你 可 能 需要 管理 员 权 限 才 能 运行 该 命令 ， 如 果 是 这 样 ， 请 尝试 使 用 
sudo 前 级 运行 。 

[4] Jupyter 可 以 处 理 多 个 版 本 的 Python， 甚 至 可 以 处 理 许多 其 他 语言 ， 例 
如 R 和 Octave。 

[5] 你 可 能 还 需要 检查 一 下 法 律 约 束 ， 例 如 有 些 专 用 字段 不 能 被 复制 到 
不 安全 的 数据 库 。 

[6] 在 真正 的 项 目 中 ， 你 需要 将 这 段 代 码 保存 在 Python 文件 中 ， 但 现在 
你 可 以 仅仅 将 其 写 入 Jpyter 笔 记 本 。 

[7] 经 常 可 以 看 到 人 们 将 随机 种 子 设置 为 42， 这 个 数字 本 喘 没 有 特殊 的 
属性 ， 只 是 “关于 生命 、 宇 宙 和 一 切 的 终极 问题 的 答案 * 而 已 ( 译 者 注 : 
来 自 《 银 河 系 搭车 客 指 南 》) 。 

[8] 位 置信 息 实 际 上 是 相当 粗 粒 度 的 ， 许 多 区 域 可 能 会 拥有 完全 相同 的 
ID， 结 果 束 是 它们 会 被 纳入 同一 个 集合 (测试 集 或 者 训练 集 ) 。 而 这 有 
可 能 会 导致 一 些 抽样 偏差 。 











从 数据 探索 和 可 视 化 中 获得 洞 见 


到 现在 为 止 ， 我 们 还 只 是 在 快速 浏览 数据 ， 从 而 对 手头 上 正在 处 理 
的 数据 类 型 形成 一 个 大 致 的 了 解 。 本 阶段 的 目标 是 再 深入 一 点 点 。 


首先 ， 把 测试 集 放 在 一 边 ， 你 能 探索 的 只 有 训练 集 。 此 外 ， 如 果 训 
练 集 非常 庞大 ， 你 可 以 抽样 一 个 探索 集 ， 这 样 后 面 的 操作 更 简单 快捷 一 
些 。 不 过 我 们 这 个 案例 的 数据 集 非 第 小 ， 完 全 可 以 直接 在 整个 训练 集 上 
操作 。 让 我 们 先 创 建 一 个 副本 ， 这 样 可 以 随便 尝试 而 不 损害 训练 集 : 





housing = strat_train_set.copy() 





将 地 理 数据 可 视 化 


由 于 存在 地 理 位 置信 息 《〈“ 经 度 和 纬度 ) ， 因 此 建立 一 个 各 区 域 的 分 
布 图 以 便于 数据 可 视 化 是 一 个 很 好 的 想法 〈 见 图 2-11) : 





housing.plot(kind="scatter", x="longitude", y="latitude") 
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图 2-11: 数据 的 地 理 分 布 图 


没 错 ， 这 除了 看 起 来 跟 加 利 福 尼 亚 州 一 样 以 外 ， 很 难 再 看 出 任何 其 
他 的 模式 。 将 alpha 选 项 设置 为 0.1， 可 以 更 清楚 地 看 出 高 密度 数据 点 的 
位 置 〈 见 图 2-12) 。 














housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1) 








32 
“20 lh =l22 =120 =110 =llg 二 4 =l2 
纬度 


图 2-12: 突出 高 密度 区 域 的 可 视 化 


现在 好 多 了 : 可 以 清楚 地 看 到 高 密度 地 区 ， 也 就 是 湾 区 、 洛 杉 矶 和 
茎 地 亚 哥 附近 ， 同 时 在 中 央 山 从 有 一 条 相当 高 密度 的 长 线 ， 特 别 是 萨 死 
拉 门 托 和 弗 雷 斯 话 附 近 。 


一 般 来 说 ， 我 们 的 大 脑 非常 善于 从 图 片 中 发 现 模式 ， 但 是 你 需要 玩 
转 可 视 化 参数 才能 让 这 些 模式 凸显 出 来 。 


现在 ， 再 来 看 看 房价 〈 见 图 2-13) 。 每 个 圆 的 半径 大 小 代表 了 每 个 
地 区 的 人 口 数量 《选项 s) ， 闫 色 代 表 价格 (选项 c〉 。 我 们 使 用 一 个 名 
叫 jet 的 预定 义 颜 色 表 《〈 选 项 cmap ) 来 进行 可 视 化 ， 颜 色 范 围 从 蓝 〈 低 ) 
到 红 (高 ): 出 























housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, 
s=housing["population"]/100, label="population", 
c="median_house_value", cmap=plt.get cmap("jet"), colorbar=True, 


) 
plt.legend() 
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图 2-13: 加 利 福 尼 亚 州 房屋 价格 


这 张 图 片 告诉 你 房屋 价格 与 地 理 位 置 〈 例 如 靠 海 )》 和 人 口 密度 奶奶 
相关 ， 这 扣 你 可 能 早已 知晓 。 一 个 通常 很 有 用 的 方法 是 ， 使 用 聚 类 算法 
来 检测 主 群体 ， 然 后 再 为 各 个 聚 类 中 心 添加 一 个 新 的 衡量 邻近 距离 的 特 
征 。 海 洋 邻 近 度 可 能 就 是 一 个 很 有 用 的 属性 ， 不 过 在 北 加 州 ， 沿 海地 区 
的 房价 并 不 是 太 高 ， 所 以 这 个 简单 的 规则 也 不 是 万 能 的 。 


本 埃 相 洋人 


由 于 数据 集 不 大 ， 你 可 以 使 用 corr〈) 方法 轻松 计算 出 每 对 属性 之 
间 的 标准 相关 系数 《也 称 为 皮尔 逊 相关 系数 ) : 





corr_matrix = housing.corr() 








现在 看 看 每 个 属性 与 房屋 中 位 数 的 相关 性 分 别 是 多 少 : 





>>> corr_matrix["median house value"].sort_ values(ascending=False) 
median_house_value 1.000000 


median_income ©0.687170 
total_rooms 0.135231 
housing_ median _ age 0.114220 
households 0.064702 
total_bedrooms 0.047865 
population -0.026699 
longitude -0.047279 
latitude -0.142826 


Name: median_house_Vvalue，dtype: float64 





相关 系数 的 范围 从 -1 变化 到 1。 越 接近 1， 表 示 有 越 强 的 正 相 关 ， 比 
如 ， 当 收入 中 位 数 上 升 时 ， 房 价 中 位 数 也 趋 于 上 升 。 当 系数 接近 于 -1， 
则 表示 有 强烈 的 负 相 关 ; 注意 看 纬度 和 房价 中 位 数 之 间 呈 现 出 轻微 的 负 
相关 《也 惑 是 说 ， 越 往 北 走 ， 房 价 倾 问 于 下 降 ) 。 最 后 ， 系 数 靠近 0 则 
说 明 二 者 之 间 没 有 线性 相关 性 。 图 2-14 显 示 了 横 轴 和 纵 轴 之 间 相 关 性 系 
数 的 多 种 绘图 。 
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图 2-14: i (来 源 :维基 百科 ， 公 共 领 域 图 
) 





然 条 关 系数 仅 测量 线性 相关 性 (“如 果 x 上 升 ， 则 y 上 升 /下 降 ”)。 
所 以 它 有 可 能 彻底 遗漏 非 线 性 相关 性 (例如 “如 果 x 接 近 于 零 ， 则 y 会 上 
升 *) 。 注 意 上 图 最 下 面 一 排 的 图 像 ， 它 们 的 相关 性 系数 都 是 0， 但 是 显 
然 我 们 可 以 看 出 横 轴 和 纵 轴 之 间 的 关系 并 不 是 彼此 完全 独立 的 : 这 是 非 
线性 关系 的 例子 。 此 外 ， 图 中 第 二 行 显示 了 相关 性 为 1 或 -1 时 的 例子 ， 
需要 注意 的 是 ， 这 个 相关 性 跟 斜 率 完 全 无 关 。 这 就 好 比 是 说 ， 你 本 人 用 
eh 
等 于 1。 

















还 有 一 种 方法 可 以 检测 属性 之 间 的 相关 性 ， 就 是 使 用 Pandas 的 
scatter_matrix 函 数 ， 它 会 绘制 出 每 个 数值 属性 相对 于 其 他 数值 属性 的 相 
关 性 。 现 在 我 们 有 个 数值 属性 ， 可 以 得 到 112 三 121 个 图 形 ， 篇 幅 原 因 无 
法 完全 展示 ， 这 里 我 们 仅 关 注 那 些 与 房价 中 位 数 属性 最 相关 的 ， 可 算 作 








是 最 有 潜力 的 属性 〈 见 图 2-15)。 





from pandas.tools.plotting import scatter matrix 


attributes = ["median_house value", "median_income", "total rooms", 
"housing_median age"] 
scatter_matrix(housing[attributes], figsize=(12, 8)) 
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图 2-15: 分 布 矩 阵 


如 果 Pandas 将 每 个 变量 都 与 自身 相 对 ， 那 么 主 对 角 线 《从 无 上 到 右 
下 ) 将 全 都 是 直线 ， 这 样 坚 无 意义 ， 所 以 取而代之 的 方法 是 ，Pandas 在 
这 | 了 每 个 属性 的 直方 图 (还 有 其 他 选项 可 选 ， 详 情 请 参考 
Pandas 文 档 ) 。 

















最 有 潜力 能 够 预测 房价 中 位 数 的 属性 是 收入 中 位 数 ， 所 以 我 们 放大 
来 看 看 其 相关 性 的 散 点 图 ( 见 图 2-16) : 





housing.plot(kind="scatter", x="median_ income", y="median_house_ value", 
alpha=0.1) 
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图 2-16: 收入 中 位 数 和 房价 中 位 数 


图 2-16 说 明了 几 个 问题 。 首 先 ， 二 者 相关 性 确实 很 强 ， 你 可 以 清楚 
地 看 到 上 升 的 趋势 ， 并 且 点 也 不 是 太 分 散 。 其 次 ， 前 面 我 们 提 到 过 50 万 
美元 的 价格 上 限 在 图 中 是 一 条 清晰 的 水 平 线 ， 不 过 除 此 以 外 ， 这 张 图 还 
显示 出 儿 条 不 那么 明显 的 直线 : 45 万 美元 附近 有 一 条 水 平 线 ，35 万 美元 
附近 也 有 一 条 ，28 万 美元 附近 似乎 隐约 也 有 一 条 ， 再 往 下 可 能 还 有 一 
些 。 为 了 避免 你 的 算法 学 习 之 后 重 现 这 些 怪异 数据 ， 你 可 能 会 尝试 删除 
这 些 相 应 地 区 。 


试验 不 同属 性 的 组 合 














通过 前 面 的 章节 ， 和 硕 望 让 你 了 解 到 了 一 些 探索 数据 并 从 中 获得 洞察 
的 方法 。 在 准备 开始 给 机 器 学 习 的 算法 输入 数据 之 前 ， 你 可 能 识别 出 了 
一 些 弄 常数 据 ， 需 要 提前 清理 掉 ; 同时 ， 说 不 定 你 还 发 现 了 不 同属 性 之 
间 的 茶 些 有 趣 联系 ， 特 别 是 跟 目 标 属性 相关 的 联系 ; 再 有 ， 你 还 可 能 注 
意 到 某 些 属性 的 分 布 显 示 出 了 明显 的 “ 重 尾 ” 分 布 ， 于 是 你 还 需要 对 它们 
进行 转换 处 理 《〈 例 如 ， 计 算 其 对 数 ) 。 当 然 了 ， 每 个 项 目的 历程 都 不 一 
样 ， 但 是 大 致 思路 都 相似 。 


在 准备 给 机 器 学 习 算法 得 入 数据 之 前 ， 你 要 做 的 最 后 一 件 事 应 该 是 
尝试 各 种 属性 的 组 合 。 比 如 ， 如 果 你 不 知道 一 个 地 区 有 多 少 个 家 庭 ， 那 
么 知道 一 个 地 区 的 “房间 总 数 ” 也 没什么 用 。 你 真正 想 要 知道 的 是 一 个 家 
寿 的 房间 数量 。 同 样 地 ， 单 看 “卧室 总 数 "这 个 属性 本 身 ， 也 没什么 意 
义 ， 你 可 能 是 想 拿 尼 和 "房间 总 数 ?来 对 比 ， 或 者 拿 来 同 “ 每 个 家 庭 的 人 
口 数 ” 这 个 属性 结合 也 似乎 挺 有 意思 。 我 们 来 试 着 创建 这 些 新 属性 : 


























housing["rooms_per_household"] = housing["total rooms"]/housing["households"] 
housing["bedrooms_per_room"] = housing["total bedrooms"]/housing["total rooms"] 
housing["population_per_household"]=housing["population"]/housing["households"] 





然后 再 来 看 看 关联 窍 阵 : 





>>> corr_matrix = housing.corr() 
>>> corr_matrix["median house value"].sort_ values(ascending=False) 


median_house_value 1.000000 
median_income 0.687170 
rooms_per_household 0.199343 
total_rooms 0.135231 
housing_ median_ age 0.114220 
households 0.064702 
total_bedrooms 0.047865 
population_per_household -0.021984 
population -0.026699 
longitude -0.047279 
latitude -0.142826 


bedrooms_per_room -0.260070 
Name: median_ house value, dtype: float64 





怎么 样 ? 还 不 错 吧 ! 新 的 属性 bedrooms_per_room 较 之 “房间 总 
数 ? 或 是 “卧室 总 数 ” 与 房价 中 位 数 的 相关 性 都 要 高 得 多 。 显 然 卧 室 / 房 间 
比例 更 低 的 房屋 ， 往 往 价格 更 贵 。 同 样 “每 个 家 性 的 房间 数量 ”也 比 “ 房 
间 总 数 ” 更 具 信 息 量 一 一 房屋 越 大 ， 价 格 越 贵 。 








这 一 轮 的 探索 不 一 定 要 多 么 彻底 : 关键 是 迈 开 第 一 步 ， 快 速 取得 更 
深刻 的 理解 ， 这 将 有 助 于 你 获得 非常 棒 的 第 一 个 原型 。 这 也 是 个 不 断 迭 
代 的 过 程 : 一 旦 你 的 原型 产生 并 且 开 始 运行 ， 你 可 以 分 析 它 的 输出 以 洞 
悉 更 多 的 见解 ， 然 后 再 次 回 到 这 个 探索 的 步骤 。 


[1 如 果 你 看 到 的 是 灰 度 图 像 ， 请 拿 出 一 根 红 笔 ， 从 海湾 地 区 的 海岸 线 
一 直 男 到 年 地 亚 哥 (可 能 正如 你 所 料 ) 。 还 可 以 在 酝 克 拉 门 托 附近 男 出 
一 块 黄色 区 域 。 








机 噩 学 习 算 法 的 数据 准备 


现在 ， 终 于 是 时 候 给 你 的 机 器 学 习 算 法 准备 数据 了 。 这 里 你 应 该 编 
写 函 数 来 执行 ， 而 不 是 手动 操作 ， 原 因 如 下 : 


你 可 以 在 任何 数据 集 上 轻松 重 现 这 些 转换 例如， 获得 更 新 的 数 
据 库 之 后 ) 。 


四 你 可 以 逐渐 建立 起 一 个 转换 函数 的 函数 库 ， 在 以 后 的 项 目 中 可 以 
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-你 可 以 在 实时 系统 (live system) 中 使 用 这 些 函 数 来 转换 新 数据 ， 
再 喂 给 算法 。 

:你 可 以 轻松 尝试 多 种 转换 方式 ， 查 看 哪 种 转换 的 组 合 效 果 最 住 。 

但 是 现在 ， 让 我 们 先 回 到 一 个 干净 的 数据 集 〈 再 次 复制 
strat_train_set) ， 然 后 将 预测 器 和 标签 分 开 ， 因 为 这 里 我 们 不 一 定 对 它 
们 使 用 相同 的 转换 方式 〈 需 要 注意 drop 〈) 会 创建 一 个 数据 副本 ， 但 是 


不 影响 strat_train set) : 





housing = strat_train set.drop("median house value", axis=1) 
housing_labels = strat_train_ set["median house_value"].copy() 


数据 清理 

大 部 分 的 机 器 学 习 算 法 无 法 在 缺失 的 特征 上 工作 ， 所 以 我 们 要 创建 
一 些 函 数 来 辅助 它 。 前 面 我 们 已 经 注意 到 total_bedrooms 属 性 有 部 分 值 
缺失 ， 所 以 我 们 要 解决 它 。 有 以 下 三 种 选择 : 

:放弃 这 些 相 应 的 地 区 

:放弃 这 个 属性 

.将 缺失 的 值 设置 为 某 个 值 (0、 平 均 数 或 者 中 位 数 等 都 可 以 ) 

通过 DataFrame 的 dropna () 、drop () 和 flna () 方法 ， 可 以 轻松 














完成 这 些 操作 : 





housing.dropna(subset=["total bedrooms"]) # option 1 
housing.drop("total bedrooms", axis=1) # option 2 
median = housing["total bedrooms"] ,median( ) 

housing["total bedrooms"].fillna(median) # option 3 





如 果 你 选择 方法 3， 你 需要 计算 出 训练 集 的 中 位 数值 ， 然 后 用 它 填 
充 训 练 集中 的 缺失 值 ， 但 也 别 悉 了 保存 这 个 计算 出 来 的 中 位 数值 ， 因 为 
后 面 可 能 需要 用 到 。 比 如 重新 评估 系统 时 ， 你 需要 更 换 测试 集中 的 缺失 
值 ， 或 者 在 系统 上 线 时 ， 需 要 使 用 新 数据 答 代 缺失 值 。 


Scikit-Learn 提 供 了 一 个 非常 容易 上 手 的 教程 来 处 理 缺 失 值 : 
imputer。 使 用 方法 如 下 ， 首 先 ， 你 需要 创建 一 个 imputer 实 例 ， 指 定 你 
要 用 属性 的 中 位 数值 蔡 换 该 属性 的 缺失 值 : 





from sklearn.preprocessing import Imputer 


imputer = Imputer(strategy="median") 





由 于 中 位 数值 只 能 在 数值 属性 上 计算 ， 所 以 我 们 需要 创建 一 个 没有 
文本 属性 的 数据 副本 ocean_proximity: 





housing_num = housing.drop("ocean proximity", axis=1) 





使 用 fit() 方法 将 imputer 实 例 适 配 到 训练 集 : 





imputer .fit(housing_num) 








这 里 imputer 仅 仅 只 是 计算 了 每 个 属性 的 中 位 数值 ， 并 将 结果 存储 在 
其 实例 变量 statistics_ 中 。 虽 然 只 有 total_bedrooms 这 个 属性 存在 缺失 值 ， 
但 是 我 们 无 法 确认 系统 启动 之 后 新 数据 中 是 否 一 定 不 存在 任何 缺失 值 ， 
所 以 稳妥 起 见 ， 还 是 将 imputer 应 用 于 所 有 的 数值 属性 : 














>>> imputer.statistics_ 

array([ -118.51 ，34.26 , 29. , 2119. , 433. , 1164. ,408. ，3.5414]) 
>>> housing_num.median().values 

array([ -118.51 , 34.26 , 29. , 2119. , 433. ,， 1164. ， 408. ,3.5414]) 


现在 ， 你 可 以 使 用 这 个 “训练 有 素 ” 的 imputer 将 缺失 值 蔡 换 成 中 位 数 
值 完成 训练 集 转换 : 


X= imputer.transform(housing_num) 


结果 是 一 个 包含 转换 后 特征 的 Numpy 数 组 。 如 果 你 想 要 将 它 放 回 
Pandas DataFrame， 也 很 简单 : 


housing_tr = pd.DataFrame(X, columns=housing_num.columns) 


Scikit-Learn 的 设计 
Scikit-Leam 的 API 设 计 得 非常 好 。 其 主要 的 设计 原则 是 : 出 
一致 性 。 所 有 对 象 共享 一 个 简单 一 致 的 界面 : 


-估算 器 。 能 够 根据 数据 集 对 某 些 参 数 进行 估算 的 任意 对 象 都 可 以 
被 称 为 估算 器 (例如 ，imputer 就 是 一 个 估算 器 〉。 估 算 由 ft () 方法 执 
行 ， 它 只 需要 一 个 数据 集 作为 参数 (或 者 两 个 一 一 对 于 监督 式 学 习 算 
法 ， 第 二 个 数据 集 包 含 标签 )。 引 导 估 算 过 程 的 任何 其 他 参数 都 算 作 是 
超 参 数 ( 例 如 ，imputer’s strategy) ， 它 必须 被 设置 为 一 个 实例 变量 
(一 般 是 构造 函数 参数 ) 。 


.转换 器 。 有 些 估算 器 〈 例 如 imputer) 也 可 以 转换 数据 集 ， 这 些 被 
称 为 转换 器 。 同 样 ，API 也 非常 简单 : 由 transform 〈) 方法 和 作为 参数 
的 待 转换 数据 集 一 起 执行 转换 ， 返 回 的 结果 就 是 转换 后 的 数据 集 。 这 种 
转换 的 过 程 通常 依赖 于 学 习 的 参数 ， 比 如 本 例 中 的 imputer。 所 有 的 转换 
器 都 可 以 使 用 一 个 很 方便 的 方法 ， 即 fit_ transform() ， 相 当 于 先 调用 
fit () 然后 再 调用 transform() (但 是 fit_transform() 有 时 是 被 优化 过 
的 ， 所 以 运行 得 要 更 快 一 些 ) 。 


预测 占 。 最 后 ， 还 有 些 估算 右 能 够 基于 一 个 给 定 的 数据 集 进 行 预 
测 ， 这 被 称 为 预测 融 。 比 如 ， 上 一 章 有 的 linearRegression 束 是 一 个 预测 
人 虱 : 它 基 于 一 个 国家 的 人 均 GDP 预 测 该 国家 的 生活 满意 度 。 预 测 器 的 
predict〈) 方法 会 接受 一 个 新 实例 的 数据 集 ， 然 后 返回 一 个 包含 相应 预 





测 的 数据 集 。 值 得 一 提 的 还 有 一 个 score 〈) 方法 ， 可 以 用 来 衡量 给 定 测 
试 集 的 预测 质量 (以 及 在 监督 式 学 习 算法 里 对 应 的 标签 ) 。 握 

检查。 所 有 估算 器 的 超 参 数 都 可 以 通过 公共 实例 变量 (例如 ， 
impnuter.strategy) 直接 访问 ， 并 且 所 有 估算 器 的 学 习 参 数 也 可 以 通过 有 
下 划 线 后 级 的 公共 实例 变量 来 访问 (例如 ，imputer.strategy_) 。 


-防止 类 扩散 。 数 据 集 被 表示 为 NumPy 数 组 或 是 SciPy 稀 下 和 矩阵， 而 
不 是 自 定 义 的 类 型 。 超 参数 只 是 普通 的 Python 字 符 串 或 者 数字 。 


-构成 。 现 有 的 构件 上 尽 最 大 可 能 重用 。 例 如 ， 任 意 友 列 的 转换 器 最 
后 加 一 个 预测 器 就 可 以 轻松 创建 一 个 流水 线 。 


合理 的 默认 值 。Scikit-Learn 为 大 多 数 参 数 提供 了 合理 的 默认 值 ， 
从 而 可 以 快速 搭建 起 一 个 基本 的 工作 系统 。 


处 理 文 本 和 分 类 属性 

之 前 我 们 排除 了 分 类 属性 ocean_proximity， 因 为 它 是 一 个 文本 属 
性 ， 我 们 无 法 计算 它 的 中 位 数值 。 大 部 分 的 机 器 学 习 算法 都 更 易于 跟 数 
字 打 交道 ， 所 以 我 们 先 将 这 些 文本 标签 转化 为 数字 。 


Scikit-Learn 为 这 类 任务 提供 了 一 个 转换 器 LabelEncoder: 








>>> from sklearn.preprocessing import LabelEncoder 

>>> encoder = LabelEncoder() 

>>> housing_cat = housing["ocean_proximity"] 

>>> housing_cat_encoded = encoder .fit_ transform(housing_cat) 
>>> housing_cat_encoded 

array([1, 1, 4, ..., 1, 0, 3]) 








现在 好 了 : 我 们 可 以 将 这 套数 值 数据 应 用 于 任意 机 器 学 习 算 法 。 你 
可 以 使 用 classes_ 属 性 来 查看 这 个 编码 器 已 学 习 的 映射 (“<1H 
OCEAN” 对 应 为 0，“INLAND” 对 应 为 1， 等 等 ): 








>>> print(encoder.classes ) 
['<1iH OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN'] 








这 种 代表 方式 产生 的 一 个 问题 是 ， 机 器 学 习 算 法 会 以 为 两 个 相近 的 





数字 比 两 个 离 得 较 远 的 数字 更 为 相似 一 些 。 显 然 ， 真 实情 况 并 非 如 此 
比如， 类别 0 和 类 别 4 之 间 就 比 类 别 0 和 类 别 1 之 间 的 相似 度 更 高 ) 。 为 
了 解决 这 个 问题 ， 和 常见 的 解决 方案 是 给 每 个 类 别 创建 一 个 二 进 制 的 属 
性 : 当 类 别 是 “<1H OCEAN” 时 ， 一 个 属性 为 1 (其 他 为 0) ， 当 类 别 
是 “INLAND” 时 ， 另 一 个 属性 为 1 (其 他 为 0) ， 以 此 类 推 。 这 就 是 独 热 
编码 ， 因 为 只 有 一 个 属性 为 1 ( 热 ) ， 其 他 均 为 0 ( 冷 )。 


Scikit-Learn 提 供 了 一 个 OneHotEncoder 编 码 嚣 ， 可 以 将 整数 分 类 值 
转换 为 独 热 器 量 。 我 们 用 它 来 将 类 别 编 码 为 独 热 同 量 。 值 得 注意 的 是 ， 
fit_transform 〈) 需要 一 个 二 维 数组 ， 但 是 housing_cat_encoded 是 一 个 一 


维 数组 ， 所 以 我 们 需要 将 它 重 塑 ， 量 














>>> from sklearn.preprocessing import OneHotEncoder 

>>> encoder = OneHotEncoder() 

>>> housing_cat_ 1hot = encoder.fit transform(housing_cat_encoded.reshape(-1,1)) 
>>> housing_cat_1hot 

<16513x5 sparse matrix of type '<class 'numpy.float64'>" 

with 16513 stored elements in Compressed Sparse Row format> 








注意 到 这 里 的 输出 是 一 个 SciPy 稀 玖 和 矩阵， 而 不 是 一 个 NumPy 数 
组 。 当 你 有 成 干 上 万 种 类 别 的 分 类 属性 时 ， 这 个 函数 会 非常 有 用 。 因 为 
当 独 热 编码 完成 之 后 ， 我 们 会 得 到 一 个 几 千 列 的 矩阵 ， 并 且 全 是 0， 
行 仅 有 一 个 1。 占 用 大 量 内 存 来 存储 0 是 一 件 非常 浪费 的 事情 ， 因 此 稀 玉 C 
和 矩阵 选择 仅 存 储 非 零 元 素 的 位 置 。 而 你 依旧 可 以 像 使 用 一 个 普通 的 二 维 
数组 那样 来 使 用 它 ， 纪 当然 如 果 你 实在 想 把 它 转 换 成 一 个 (密集 的 ) 
NumPy 数 组 ， 只 需要 调用 toarray () 方法 即 可 : 














>>> housing_cat_1hot,toarray( 
array([[ 0., 1., 0., 
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[960., 1 0., 0., 0 
[1., 0 0., 0., 0.], 
[60., 0 0., 1., 0.]]) 





使 用 LabelBinarizer 类 可 以 一 次 性 完成 两 个 转换 (从 文本 类 别 转 化 为 
整数 类 别 ， 再 从 整数 类 别 转换 为 独 热 问 量 〉: 





>>> from sklearn.preprocessing import LabelBinarizer 
>>> encoder = LabelBinarizer() 


>>> housing_cat_1hot = encoder ,fit_transform(housing_cat ) 
>>> housing_cat_1hot 
array([[9， 1, 90， 0, 0], 

[0, 1, 9, 90, 09], 

[90, 9, 0, 0, 1], 


9, 90, 09], 
[1, 0, 09, 0, 09], 
[0, ©, 0, 1, 0]]) 





注意 ， 这 时 默认 返回 的 是 一 个 密集 的 NumPy 数 组 。 通 过 发 送 
sparse_output=True 给 LabelBinarizer 构 造 函 数 ， 可 以 得 到 稀 朴 矩阵 。 


自 定义 转换 器 


虽然 Scikit-Leam 己 经 提供 了 许多 有 用 的 转换 器 ， 但 是 你 仍然 需要 为 
一 些 诸如 自 定 义 清 理 操 作 或 是 组 合 特定 属性 等 任务 编写 自己 的 转换 器 。 
你 当然 希望 让 自己 的 转换 器 与 Scikit-Learn 自 身 的 功能 〈 比 如 流水 线 ) 无 
颖 衔接 ， 而 由 于 Scikit-Learn 依 赖 于 蝎子 类 型 (duck typing) 的 编译 ， 而 
不 是 继承 ， 所 以 你 所 需要 的 只 是 创建 一 个 类 ， 然 后 应 用 以 下 三 个 方法 : 
fit () (返回 自身 ) 、transform () 、fit transform () 。 如 果 添 加 
TransformerMixin 作 为 基 类 ， 就 可 以 直接 得 到 最 后 一 个 方法 。 同 时 ， 如 
果 添 加 BaseEstimator 作 为 基 类 (并 在 构造 函数 中 避免 xargs 和 **kargs) ， 
你 还 能 额外 获得 两 个 非常 有 用 的 自动 调整 超 参 数 的 方法 
(get_params 〈) 和 set_params () ) 。 例 如 ， 我 们 前 面 讨论 过 的 组 合 局 
性 ， 这 里 有 个 简单 的 转换 器 类 ， 用 来 添加 组 合 后 的 属性 : 











from sklearn.base import BaseEstimator, TransformerMixin 
rooms_ix, bedrooms_ix, population_ ix, household ix = 3, 4, 5, 6 


class CombinedAttributesAdder(BaseEstimator, TransformerMixin): 
def _ init (self, add _ bedrooms_ per_room = True): # no *args or **kargs 
self.add bedrooms_per_room = add bedrooms_per_room 
def fit(self, XxX, y=None): 
return self # nothing else to do 
def transform(self, XxX, y=None): 
rooms_per_household = XxX[:, rooms_ix] / X[:, household ix] 
population_per_household = Xx[:, population ix] / Xx[:, household_ ix] 
If self.add bedrooms_per_room: 
bedrooms_ per_room = X[:, bedrooms_ ix] / Xx[:, rooms_ix] 
return np.c_[X, rooms_ per_household, population per_household, 
bedrooms_per_room] 
else: 
return np.c_[X, rooms_per_household, population per_household] 
attr_adder = CombinedAttributesAdder(add bedrooms_per_room=False) 
housing extra attribs = attr_adder,transform(housing,VvValues ) 


二 一 


在 本 例 中 ， 转 换 器 有 一 个 超 参数 add_bedrooms_per_room 默 认 设置 
为 Trne 提 供 合 理 的 默认 值 通常 是 很 有 帮助 的 ) 。 这 个 超 参 数 可 以 让 你 
轻松 知晓 添加 这 个 属性 是 否 有 助 于 机 器 学 习 的 算法 。 更 广泛 地 说 ， 如 果 
你 对 数据 准备 的 步 又 没有 充分 的 信心 ， 就 可 以 添加 这 个 超 参 数 来 进行 把 
关 。 这 些 数据 准备 步骤 的 执行 越 上 自动 化 ， 你 自动 党 试 的 组 合 也 就 越 多 ， 
从 而 有 更 大 可 能 从 中 找到 一 个 重要 的 组 合 〈 还 节省 了 大 量 时 间 ) 。 


特征 缩放 


最 重要 也 最 需要 应 用 到 数据 上 的 转换 器 ， 就 是 特征 缩放 。 如 果 输 入 
的 数值 属性 具有 非常 大 的 比例 差异 ， 往 往 导 致 机 器 学 习 算 法 的 性 能 表现 
不 佳 ， 当 然 也 有 极 少 数 特例 。 案 例 中 的 房屋 数据 就 是 这 样 : 房间 总 数 的 
es 而 收入 中 位 数 的 范围 是 0 到 15。 注 意 ， 目 标 值 通常 不 
需要 缩放 。 


同比 例 缩放 所 有 属性 ， 第 用 的 两 种 方法 是 : 最 小 -最 大 缩放 和 标准 





























最 小 -最 大 缩放 《又 叫 作 归 一 化 ) 很 简单 : 将 值 重 新 缩放 使 其 最 终 
范围 归于 0 到 1 之 间 。 实 现 方法 是 将 值 减 去 最 小 值 并 除 以 最 大 值 和 最 小 值 
的 差 。 对 此 ，Scikit-Learn 提 供 了 一 个 名 为 MinMaxScaler 的 转换 器 。 如 果 
出 于 某 种 原因 ， 你 希望 范围 不 是 0 一 1， 你 可 以 通过 调整 超 参数 
feature_range 进 行 更 改 。 


标准 化 则 完全 不 一 样 : 首先 减 去 平均 值 (所 以 标准 化 值 的 均值 总 是 
零 ) ， 然 后 除 以 方 到 ， 从 而 使 得 结果 的 分 布 具备 单位 方差 。 不 同 于 最 
小 -最 大 缩放 的 是 ， 标 准 化 不 将 值 绑 定 到 特定 范围 ， 对 某 些 算法 而 言 ， 
这 可 能 是 个 问题 (例如 ， 神 经 网 络 期 望 的 输入 值 范 围 通常 是 0 到 1)〉。 但 
是 标准 化 的 方法 受 异常 值 的 影响 更 小 。 例 如 ， 假 设 某 个 地 区 的 平均 收入 
等 于 100〈 错 误 数 据 ) 。 最 小 -最 大 缩放 会 将 所 有 其 他 值 从 0 一 15 降 到 0 一 
0.15， 而 标准 化 则 不 会 受到 很 大 影响 。Scikit-Learn 提 供 了 一 个 标准 化 的 
转换 器 StandadScaler。 

















仆人 重要 的 是 ， 跟 所 有 转换 一 样 ， 缩 放 器 仅 用 来 拟 合 训练 集 ， 而 不 
完整 的 数据 集 《〈 包 括 测试 集 ) 。 只 有 这 样 ， 才 能 使 用 它们 来 进行 转 


党 


转换 流水 线 


正如 你 所 见 ， 许 多 数据 转换 的 步骤 需要 以 正确 的 顺序 来 执行 。 而 
Scikit-Leam 正 好 提供 了 Pipeline 来 文 持 这 样 的 转换 。 下 面 是 一 个 数值 属 
性 的 流水 线 例子 : 





from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import StandardScaler 


num_pipeline = Pipeline([ 
('imputer', Imputer(strategy="median")), 
('attribs adder', CombinedAttributesAdder()), 
('std_scaler', Standardscaler()), 
]) 


housing_num_tr = num_pipeline.fit_transform(housing_num) 





Pipeline 构 造 函 数 会 通过 一 系列 名 称 /估算 喜 的 配对 来 定义 步骤 的 序 
列 。 除 了 最 后 一 个 是 估算 右 之 外 ， 前 面 都 必须 是 转换 器 (也 束 是 说 ， 必 
有 顷 有 fit_transform 〈) 方法 ) 。 人 至 于 命名 ， 可 以 随意 ， 你 喜欢 就 好 。 


当 调 用 流水 线 的 ft () 方法 时 ， 会 在 所 有 转换 器 上 按照 顺序 依次 调 
用 fit_transform () ， 将 一 个 调用 的 输出 作为 参数 传递 给 下 一 个 调用 方 
法 ， 直 到 传递 到 最 终 的 估算 器 ， 则 只 会 调用 fit 〈() 方法 。 


流水 线 的 方法 与 最 终 的 估算 器 的 方法 相同 。 在 本 例 中 ， 最 后 一 个 估 
算 器 是 StandardScaler， 这 是 个 转换 器 ， 因 此 Pipeline 有 transform 〈) 方 
法 可 以 按 顺 序 将 所 有 的 转换 应 用 到 数据 中 《如 果 不 希 望 先 调用 fit () 再 
调用 transform 〈) ， 也 可 以 直接 调用 fit_transform 〈) 方法 ) 。 


现在 ， 你 已 经 有 了 一 个 处 理 数 值 的 流水 线 ， 接 下 来 你 需要 在 分 类 值 
上 应 用 LabelBinarizer: 不 然 怎 么 将 这 些 转 换 加 入 单个 流水 线 中 ? Scikit- 
Learn 为 此 特意 提供 了 一 个 FeatureUnion 类 。 你 只 需要 提供 一 个 转换 右 列 
表 ( 可 以 是 整个 转换 器 流水 线 ) ， 当 transform 〈) 方法 被 调用 时 ， 它 会 
并 行 运行 每 个 转换 器 的 transform() 方法 ， 等 竺 它们 的 输出 ， 然 后 将 它 
们 连结 起 来 ， 返 回 结 果 (同样 地 ， 调 用 fit () 方法 也 会 调用 每 个 转换 器 
的 ft () 方法 ) 。 一 个 完整 的 处 理 数值 和 分 类 属性 的 流水 线 可 能 如 下 所 
人 外: 

















from sklearn.pipeline import FeatureUnion 


num_attribs 
cat_attribs 


list(housing_num) 
["ocean_proximity"] 


num_pipeline = Pipeline([ 
('selector', DataFrameSelector(num attribs)), 
('imputer', Imputer(strategy="median")), 
('attribs_adder', CombinedAttributesAdder()), 
('std_scaler', Standardscaler()), 


]) 


cat_pipeline = Pipeline([ 
('selector', DataFrameSelector(cat_attribs)), 
('label binarizer', LabelBinarizer()), 


]) 


full_pipeline = FeatureUnion(transformer_list=[ 
("num_pipeline", num_pipeline), 
("cat_pipeline", cat_pipeline), 


]) 








>>> housing_prepared = full pipeline.fit transform(housing) 
>>> housing_prepared 


array([[ 0.73225807, -0.67331551, 0.58426443, ..., 0. . 
0. ， 0. ]， 
[-0.99102923, 1.63234656, -0.92655887，...， 0. > 
0. ， 0. ]， 
Li 
>>> housing_prepared. shape 
(16513, 17) 





每 条 子 流水 线 从 选择 器 转换 器 开始 : 只 需要 挑 出 所 需 的 属性 〈 数 值 
或 分 类 ) ， 有 删除 其 余 的 数据 ， 然 后 将 生成 的 DataFrame 转 换 为 NumPy 数 
组 ， 数 据 转换 就 完成 了 。Scikit-Learn 中 没有 可 以 用 来 处 理 Pandas 
DataFrames 的 局 ， 因 此 我 们 需要 为 此 任务 编写 一 个 简单 的 自 定义 转换 
器 : 





from sklearn.base import BaseEstimator, TransformerMixin 


class DataFrameSelector(BaseEstimator, TransformerMixin): 
def _ init (self, attribute names): 
self.attribute names = attribute_names 
def fit(self, XxX, y=None): 
return self 
def transform(self, XxX): 
return Xx[self.attribute_names].values 





[1 有 关 设 计 原 则 的 更 多 细节 ， 请 参见 “API design for machine learning 


software: experiences from the scikit-learn project”, L.Buitinck, 
G.Louppe，M.Blondel，F.Pedregosa，A.Miiller， 等 人 〈2013 年 ) 。 

D] 某 些 预测 器 还 提供 了 衡量 其 预测 信心 的 方法 。 

[3] NumPy 的 reshape () 函数 允许 一 个 维度 等 于 -1， 也 就 是 “未 指定 ”: 
该 值 由 数组 的 长 度 和 其 余 维 度 来 推 斯 。 

[4] 详 见 SciPy 的 文档 。 

[5] 不 过 查看 Pull Request #3886， 提 到 一 个 ColumnTransformer 类 可 以 让 
特定 属性 的 转换 更 容易 些 。 你 也 可 以 运行 pip3 install sklearn-pandas 来 获 
取 DataFrameMapper 类 ， 也 同样 可 以 达到 目的 。 








选择 和 训练 模型 


至 此 ， 你 框 出 了 问题 ， 获 得 了 数据 ， 也 进行 了 数据 探索 ， 然 后 对 训 
练 集 和 测试 集 进行 了 抽样 并 编写 了 转换 流水 线 ， 从 而 可 以 自动 清理 和 准 
备 机 器 学 习 算 法 的 数据 了 ! 现在 是 时 候选 择机 器 学 习 模型 并 展开 训练 
本 


者 训 和 评估 训练 集 


好 消 妃 是 ， 在 经 过 前 面 的 步骤 之 后 ， 事 情 现在 变 得 比 想 象 中 容易 很 
多 。 首 先 ， 如 同 我 们 在 上 一 章 所 做 的 ， 先 训练 一 个 线性 回归 模型 : 











from sklearn.linear_model import LinearRegression 


lin_reg = LinearRegression() 
lin_reg.fit(housing_prepared, housing_labels) 





现在 你 有 一 个 可 以 工作 的 线性 回归 模型 了 。 让 我 们 用 几 个 训练 集 的 
实例 试 试 : 





>>> some_data = housing.iloc[:5] 

>>> some_labels = housing_labels.iloc[:5] 

>>> some_data prepared = full pipeline.transform(some_data) 

>>> print("Predictions:\t", lin_ reg.predict(some_ data prepared)) 
Predictions: [ 303104. 44800. 308928. 294208. 368704.] 

>>> print("Labels:\t\t", list(some_ labels)) 

Labels: [359400.0, 69700.0, 302100.0, 301300.0, 351900.0] 





可 以 工作 了 ， 虽 然 预 测 还 不 是 很 准确 。【〔 例 如 ， 第 二 次 的 预测 失效 
超过 50%! ) 我 们 可 以 使 用 Scikit-Learn 的 mean_squared_error 函 数 来 测量 
整个 训练 集 上 回归 模型 的 RMSE: 





>>> from sklearn.metrics import mean_sdquared_error 

>>> housing_predictions = lin_reg.predict(housing_prepared) 

>>> lin_mse = mean_squared_ error(housing labels, housing_predictions) 
>>> lin_rmse = np.sqrt(1lin_mse) 

>>> lin_rmse 

68628.413493824875 








好 吧 ， 这 虽然 比 什么 都 没有 要 好 ， 但 显然 也 不 是 一 个 好 看 的 成 绩 : 


大 多 数 地 区 的 median_housing_values 分 布 在 120000 到 265000 美 元 之 间 ， 

所 以 典型 的 预测 误差 达到 68628 美 元 只 能 算是 差强人意 。 这 就 是 一 个 典 
型 的 模型 对 训练 数据 拟 合 不 足 的 案例 。 这 种 情况 发 生 时 ， 通 常 意味 着 这 
些 特征 可 能 无 法 提供 足够 的 信息 来 做 出 更 好 的 预测 ， 或 者 是 模型 本 寻 不 
够 强大 。 我 们 在 上 一 章 已 经 提 到 ， 想 要 修正 拟 合 不 足 ， 可 以 通过 选择 更 
强大 的 模型 ， 或 是 为 算法 训练 提供 更 好 的 特征 ， 又 或 者 是 减少 对 模型 的 
限制 等 方法 。 我 们 这 个 模型 不 是 一 个 正则 化 的 模型 ， 所 以 就 排除 了 最 后 
那个 选项 。 你 可 以 试 试 添 加 更 多 的 特征 〈 例 如 ， 人 口 数量 的 日 志 ) ， 但 
首先 ， 让 我 们 尝试 一 个 更 复杂 的 模型 ， 看 看 它 到 底 是 怎么 工作 的 。 


我 们 来 训练 一 个 DecisionTreeRegressor。 这 是 一 个 非常 强大 的 模 
型 ， 它 能 够 从 数据 中 找到 复杂 的 非 线 性 关系 〈 关 于 决策 树 在 第 6 章 会 有 
更 详细 的 介绍 ) 。 下 面 的 代码 现在 看 来 应 该 已 经 很 熟悉 了 : 























from sklearn.tree import DecisionTreeRegressor 


tree_reg = DecisionTreeRegressor() 
tree_reg.fit(housing_ prepared, housing_labels) 





既然 这 个 模型 已 经 训练 有 素 ， 我 们 可 以 用 训练 集 来 评估 一 下 : 





>>> housing_predictions = tree_reg.predict(housing_prepared ) 

>>> tree mse = mean_squared_error(housing_Jabels，housing_predictions ) 
>>> tree_rmse = np.sqrt(tree_mse) 

>>> tree_rmse 

0.0 





等 等 ， 什 么 ! 完全 没有 错误 ?这 个 模型 真 的 可 以 做 到 绝对 完美 吗 ? 
当然 ， 更 有 可 能 的 是 这 个 模型 对 数据 严重 过 度 拟 合 了 。 我 们 怎么 确认 
呢 ? 前 面 提 到 过 ， 在 你 有 信心 局 动 模型 之 前 ， 部 不 要 触 辜 测 试 集 ， 所 以 
这 里 ， 你 需要 拿 训 练 集中 的 一 部 分 用 于 训练 ， 力 一 部 分 用 于 模型 的 验 
i 
使 用 交叉 验证 来 更 好 地 进行 评估 

评估 决策 树 模 型 的 一 种 方法 是 使 用 train_test_split 函 数 将 训练 集 分 为 


较 小 的 训练 集 和 验证 集 ， 然 后 根据 这 些 较 小 的 训练 集 来 训练 模型 ， 并 对 
其 进行 评估 。 这 虽然 有 一 些 工作 量 ， 但 是 不 会 太 难 ， 并 且 非 常 有 效 。 























另 一 个 不 错 的 选择 是 使 用 Scikit-Learn 的 交叉 验证 功能 。 以 下 是 执行 
K- 折 〈K-fold) 交叉 验证 的 代码 : 它 将 训练 集 随机 分 割 成 10 个 不 同 的 子 
集 ， 每 个 子 集 称 为 一 个 折 且 (fold〉 ， 然 后 对 决策 树 模型 进行 10 次 训练 
和 评估 一 一 每 次 挑选 1 个 折合 进行 评 佑 ， 使 用 男 外 的 9 个 折 鳃 进行 训练 。 
产 出 的 结果 是 一 个 包含 10 次 评估 分 数 的 数组 : 





from sklearn.model selection import cross val score 

Scores = cross val score(tree_reg, housing prepared, housing_ labels, 
scoring="neg_mean_squared error", cv=10) 

rmse_scores = np.sqrt(-scores) 








旷 oonitL ea 的 交 又 验证 动 能 下 全 向 于 使 用 下 用 冰 台 《< 越 大 超 
好 ) 而 不 是 成 本 函数 〈 越 小 越 好 ) ， 所 以 计算 分 数 的 函数 实际 上 是 负 的 
MSE 〈 一 个 负 值 ) 函数 ， 这 就 是 为 什么 上 面 的 代码 在 计算 平方 根 之 前 会 
先 计 算出 -scores。 


让 我 们 看 看 结果 : 





>>> def display_scores(scores): 
print("Scores:", scores) 
print("Mean:", scores.mean()) 
print("Standard deviation:", scores.std()) 


>>> display_scores(tree_rmse_scores) 

Scores: [ 74678.4916885 64766.2398337 69632.86942005 69166.67693232 
71486.76507766 73321.65695983 71860.04741226 71086.32691692 
76934.2726093 69060.93319262] 

Mean: 71199.4280043 

Standard deviation: 3202.70522793 





这 次 的 决策 树 模 型 好 像 不 如 之 前 表现 得 好 。 事 实 上 ， 看 起 来 简直 比 
线性 回归 模型 还 要 糟糕 ! 请 注意 ， 交 叉 验 证 不 仅 可 以 得 到 一 个 模型 性 能 
的 评估 值 ， 还 可 以 衡量 该 评估 的 精确 度 〈( 即 其 标准 偏差 )。 这 里 该 决策 
树 得 出 的 评分 约 为 71200， 上 下 浮动 +3200。 如 果 你 只 使 用 了 一 个 验证 
集 ， 就 收 不 到 这 样 的 结果 信息 。 交 叉 验 证 的 代价 就 是 要 多 次 训练 模型 ， 
因此 也 不 是 永远 都 行 得 通 。 


保险 起 见 ， 让 我 们 也 计算 一 下 线性 回归 模型 的 评分 : 











>>> lin_scores = cross val score(lin reg, housing_prepared, housing_ labels, 
scoring="neg_mean_squared error", cv=10) 


>>> lin_rmse_scores = np.sqrt(-1lin_scores) 

>>> display_scores(lin rmse_scores) 

Scores: [ 70423.5893262 65804.84913139 66620.84314068 72510.11362141 
66414.74423281 71958.89083606 67624.90198297 67825.36117664 
72512.36533141 68028.11688067] 

Mean: 68972.377566 

Standard deviation: 2493.98819069 





没 错 ， 决 朱 树 模型 确实 是 严重 过 上 度 拟 合 了 ， 以 至 于 表现 得 比 线性 回 
归 模 型 还 要 粳 糕 。 


我 们 再 来 试 试 最 后 一 个 模型 : RandomForestRegressor。 在 后 面 的 第 
7 章 中 ， 我 们 将 会 了 解 到 随机 森林 的 工作 原理 ， 通 过 对 特征 的 随机 子 集 
进行 许多 个 决策 树 的 训练 ， 然 后 对 其 预测 取 平 均 。 在 多 个 模型 的 基础 之 
上 建立 模型 ， 称 为 集成 学 习 ， 这 是 进一步 推动 机 器 学 习 算 法 的 好 方法 。 
这 里 我 们 将 跳 过 大 部 分 代码 ， 因 为 与 其 他 模型 基本 相同 : 











>>> from sklearn.ensemble import RandomForestRegressor 

>>> forest_reg = RandomForestRegressor() 

>>> forest_reg.fit(housing_prepared, housing_labels) 

>>> [...] 

>>> forest_rmse 

22542.396440343684 

>>> display_scores(forest_rmse_scores) 

Scores: [ 53789.2879722 50256.19806622 52521.55342602 53237.44937943 
52428.82176158 55854.61222549 52158.02291609 50093.66125649 
53240.80406125 52761.50852822] 

Mean: 52634.1919593 

Standard deviation: 1576.20472269 








哇 ， 这 个 就 好 多 了 : 随机 森林 看 起 来 很 有 戏 。 但 是 ， 请 注意 ， 训 练 
集 上 的 分 数 仍然 远 低 于 验证 集 ， 这 意味 着 该 模型 仍然 对 训练 集 过 度 拟 
合 。 过 度 拟 合 的 可 能 解决 方案 包括 简化 模型 、 约 束 模型 《即使 其 正规 
化 ) ， 或 是 获得 更 多 的 训练 数据 。 不 过 在 深入 探索 随机 森林 之 前 ， 你 应 
该 先 尝试 一 衣 各 种 机 器 学 习 算 法 的 其 他 模型 〈( 几 种 具有 不 同 内 核 的 支持 
问 量 机 ， 比 如 神经 网 络 模型 等 ) ， 但 是 记 住 一 一 别 花 太 多 时 间 去 调整 超 
参数 。 我 们 的 目的 是 筛选 出 几 个 《2 一 5 个 ) 有 效 的 模型 。 














名 等 一个 尝试 过 的 模型 你 都 应 该 妥善 保存 ， 这 样 将 来 你 可 以 轻 检 
回 到 你 想 要 的 模型 当中 。 记 得 还 要 同时 保存 超 参 数 和 训练 过 的 参数 ， 以 
及 交 义 验证 的 评分 和 实际 预测 的 结果 。 这 样 你 就 可 以 轻松 地 对 比 不 同 模 
型 类 型 的 评分 ， 以 及 不 同 模型 造成 的 错误 类 型 。 通 过 Python 的 pickel 模 








块 或 是 sklearn.externals.joblib， 你 可 以 轻松 保存 Scikit-Learmn 模 型 ， 这 样 
可 以 更 有 效 地 将 大 型 NumPy 数 组 序列 化 : 





from sklearn.externals import job1ib 


joblib.dump(my_model, "my_model,pkl") 


# and later... 
my_model_ loaded = joblib.load("my_model.pk1") 





微调 模型 


假设 你 现在 已 经 有 了 一 个 有 效 模 型 的 候选 列表 。 现 在 你 需要 的 是 对 
它们 进行 微调 。 我 们 来 看 几 个 可 行 的 方法 。 





网 格 搜索 


一 种 微调 的 方法 是 手动 调整 超 参 数 ， 找 到 一 组 很 好 的 超 参 数值 组 
合 。 这 个 过 程 非 利 术 党 乏味 ， 你 可 能 坚持 不 到 足够 的 时 间 来 探索 出 各 种 





意 
0 


相反 ， 你 可 以 用 Scikit-Learn 的 GridSearchCV 来 蔡 你 进行 探索 。 你 所 
要 做 的 只 是 告诉 它 你 要 进行 实验 的 超 参 数 是 什么 ， 以 及 需要 尝试 的 值 ， 
它 将 会 使 用 交叉 验证 来 评估 超 参数 值 的 万 有 可 能 的 组 合 。 例 如 ， 下 面 这 
段 代 码 搜索 RandomForestRegressor 的 超 参 数值 的 最 佳 组 合 : 





from sklearn.model selection import GridSearchcVv 
param_ grid = [ 
{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}, 
{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}, 


] 
forest_reg = RandomForestRegressor() 


grid_search = GridSearchCcv(forest_reg, param grid, cv=5, 
scoring='neg_mean_squared_error') 


grid_search.fit(housing_prepared, housing_ labels) 








全 | 从 不 知道 超 参数 应 该 赋 什 么 值 时， 一 个 简单 的 方法 是 连续 尝 
试 10 的 祖 次 方 〈 如 果 你 想 要 得 到 更 细 粒 度 的 搜索 ， 可 以 参考 这 个 例子 中 
所 示 的 n_estimators 超 参数 ) 。 


这 个 param_grid 告 诉 Scikit-Learn， 首 先 评估 第 一 个 dict 中 的 
n_estimator 和 max_features 的 所 有 3x4 二 12 种 超 参 数值 组 合 ( 先 不 要 担心 
这 些 超 参 数 现在 意味 着 什么 ， 我 们 将 在 第 7 章 中 进行 解释 ) ， 接 着 ， 演 
试 第 二 个 dict 中 超 参 数值 的 所 有 2x3 三 6 种 组 合 ， 但 这 次 超 参 数 bootstrap 
需要 设置 为 False 而 不 是 True (True 是 该 超 参数 的 默认 值 ) 。 


总 而 言 之 ， 网 格 搜索 将 探索 RandomForestRegressor 超 参数 值 的 12 十 
6 二 18 种 组 合 ， 并 对 每 个 模型 进行 五 次 训练 (因为 我 们 使 用 的 是 5- 折 交 
又 验 证 ) 。 换 句 话说 ， 总 共 会 完成 18x5 二 90 次 训练 ! 这 可 能 需要 相当 长 
的 时 间 ， 但 是 完成 后 你 就 可 以 获得 最 佳 的 参数 组 合 : 











>>> grid_search.best_params_ 
{'max_features': 6, 'n_estimators': 30} 








网 轴 为 被 评估 的 你 还 可 以 试 试 更 高 的 值 ， 
评分 可 能 还 会 继续 改善 


你 可 以 直接 得 到 最 好 的 估算 需 : 








>>> grid_search,best_estimator 

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None, 
max_features=6, max_leaf_nodes=None, min_samples_leaf=1, 
min_samples_split=2, min_weight_fraction_leaf=0.0, 
n_estimators=30, nNn_]jobs=1, oob_score=False, random_ state=None, 
verbose=0, warm_start=False) 





如 果 GridSearchCV 被 初始 化 为 refit=True (这 也 是 默认 值 ) ， 那 么 一 
昌 通 过 交叉 验证 找到 了 最 佳 估 算 右 ， 0 这 
通常 是 个 好 方法 ， 因 为 提供 更 多 的 数据 很 可 能 提升 其 性 能 。 


当然 还 有 评估 分 数 : 





>>> cvres = grid_ search.cv_results_ 
, for mean_score, params in zip(cvres["mean_ test_score"], cvres["params"]): 
print(np.sqrt(-mean_score), params) 


64912.0351358 {'max_features': 
55535.2786524 {'max_features': 
52940.2696165 {'max_features': 2, 'n_estimators': 30} 
60384.0908354 {'max_features': 4, 'n_estimators': 3} 


2, 'n_estimators': 3} 
2 
之 
4 
52709.9199934 {'max_features': 4, 'n_estimators': 10} 
4 
6 
6 
6 


,， 'Nn_estimators': 10} 


50503.5985321 {'max_features': 4, 'n_estimators': 30} 

59058.1153485 {'max_features': 6, 'n_estimators': 3} 

52172.0292957 {'max_features': 6, 'n_estimators': 10} 

49958.9555932 {'max_features': 6, 'n_estimators': 30} 

59122.260006 {'max_features': 8, 'n_estimators': 3} 

52441.5896087 {'max_features': 8, 'n_estimators': 10} 

50041.4899416 {'max_features': 8, 'n_estimators': 30} 

62371.1221202 {'bootstrap': False, 'max_features': 2, 'n_estimators': 3} 
54572.2557534 {'bootstrap': False, 'max_features': 2, 'nN_estimators': 10} 
59634.0533132 {'bootstrap': False, 'max_features': 3, 'Nn_estimators': 3} 
52456.0883904 {'bootstrap': False, 'max_features': 3, 'nN_estimators': 10} 
58825.665239 {'bootstrap': False, 'max_features': 4, 'n_estimators': 3} 
52012.9945396 {'bootstrap': False, 'max_features': 4, 'n_estimators': 10} 





在 本 例 中 ， 我 们 得 到 的 最 佳 解决 方案 是 将 超 参 数 max_features 设 置 
为 6，n_estimators 设 置 为 30。 这 个 组 合 的 RMSE 分 数 为 49959， 略 高 于 之 


前 使 用 默认 超 参 数值 的 分 数 52634。 恭 喜 你， 你 成 功 地 将 你 的 模型 调整 
到 了 最 佳 模式 ! 





独 | 不 要 右 了 ， 有 些 数 据 准备 的 步骤 也 可 以 当 作 超 参数 来 处 理 。 例 
如 ， 网 格 搜索 会 自动 查找 是 否 添 加 你 不 确定 的 特征 (比如 是 否 使 用 转换 
器 CombinedAttributesAdder 的 超 参 数 add_bedrooms_per_room) 。 同 样 ， 
还 可 以 用 它 来 自动 寻找 处 理 问题 的 最 佳 方法 ， 例 如 处 理 异 常 值 、 缺 失 特 
征 ， 以 及 特征 选择 等 。 


随机 搜索 


如 果 探 索 的 组 合 数量 较 少 一 例如 上 一 个 示例 ， 网 格 搜索 是 一 个 不 
错 的 方法 ; 但 是 当 超 参数 的 搜索 范围 (search space) 较 大 时 ， 通 常会 优 
先 选 择 使 用 RandomizedSearchCV。 这 个 类 用 起 来 与 GridSearchCV 类 大 致 
相同 ， 但 它 不 会 尝试 所 有 可 能 的 组 合 ， 而 是 在 每 次 迭代 中 为 每 个 超 参数 
选择 一 个 随机 值 ， 然 后 对 一 定数 量 的 随机 组 合 进行 评估 。 这 个 方法 有 两 


个 显著 特性 : 


如果 运 行 随机 搜索 1000 个 欠 代 ， 那 么 将 会 探索 每 个 超 参数 的 1000 
| 

















通过 简单 地 设置 欠 代 次 数 ， 可 以 更 好 地 控制 要 分 配给 探索 的 超 参 
数 的 计算 预算 。 
集成 方法 


还 有 一 种 微调 系统 的 方法 是 将 表现 最 优 的 模型 组 合 起 来 。 组 合 
〈 或 “集成 ?) 方法 通 利 比 最 佳 的 单一 模型 更 好 《就 像 随机 森林 比 其 所 依 
赖 的 任何 单个 决策 树 模型 更 好 一 样 ) ， 特 别 是 当 单 一 模型 会 产生 严重 不 
同类 型 的 错误 时 更 是 如 此 。 我 们 将 在 第 7 章 中 更 详细 地 介绍 这 个 主题 。 


分 析 最 佳 模型 及 其 错误 


通过 检查 最 佳 模型 ， 你 总 是 可 以 得 到 一 些 好 的 洞 见 。 例 如 在 进行 准 
确 预 估 时 ，Random ForestRegressor 可 以 指出 每 个 属性 的 相对 重要 程度 : 























>>> feature_importances = grid _ search,.best_ estimator_.feature_importances_ 
>>> feature_importances 

array([ 7.14156423e-02, 6.76139189e-02, 4.44260894e-02, 

66308583e-02, 1.66076861e-02, 1.82402545e-02, 

63458761e-02, 3.26497987e-01, 6.04365775e-02, 

13055290e-01, 7.79324766e-02, 1.12166442e-02, 

53344918e-01, 8.41308969e-05, 2.68483884e-03, 
46681181e-03]) 


WAP 








将 这 些 重 要 性 分 数 显示 在 对 应 的 属性 名 称 劳 边 : 





>>> extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room'"] 
>>> Cat_one_hot_attribs = list(encoder.classes ) 
>>> attributes = num_attribs + extra_attribs + cat_one_hot_attribs 
>>> sorted(zip(feature importances, attributes), reverse=True) 
[(0.32649798665134971, 'median_income'), 

(0.15334491760305854, 'INLAND'), 

(0.11305529021187399,'pop_per_hhold'), 

(0.07793247662544775, 'bedrooms_per_room'), 

(0.071415642259275158, 'longitude'), 

(0.067613918945568688, 'latitude'), 

(0.060436577499703222, 'rooms_per_hhold ' )， 

(0.04442608939578685, 'housing_median age'), 

(0.018240254462909437， 'population' )， 

(0.01663085833886218, 'total_rooms'), 

(0.016607686091288865, 'total_ bedrooms'), 

(0.016345876147580776, 'households'), 

(0.011216644219017424, '<1H OCEAN ' )， 

(0.0034668118081117387, 'NEAR OCEAN ' )， 

(0.0026848388432755429, 'NEAR BAY ' )， 

(8.4130896890070617e-05， 'ISLAND ' ) ] 





有 了 这 些 信 息 ， 你 可 以 尝试 删除 一 些 不 太 有 用 的 特征 (例如 ， 本 例 
只 有 一 个 ocean_proximity 是 有 用 的 ， 我 们 可 以 试 着 删除 其 他 所 有 特 
) 。 


然后 ， 你 还 应 该 得 看 一 下 系统 产生 的 具体 错误 ， 共 试 了 解 它 们 是 怎 
么 产生 的 ， 以 及 该 怎么 解决 《通过 添加 额外 的 特征 ， 或 是 删除 没有 信息 
的 特征 ， 清 除 异 剃 值 ， 等 等 )。 


通过 测试 集 评估 系统 


通过 一 段 时 间 的 训练 ， 你 终于 有 了 一 个 表现 足够 优秀 的 系统 。 现 在 
是 用 测试 集 评 估 最 终 模型 的 时 候 了 。 这 个 过 程 没 有 什么 特别 的 : 只 需要 
从 测试 集中 获取 预测 器 和 标签 ， 运 行 full_pipeline 来 转换 数据 (调用 
transform 〈) 而 不 是 fit_transform() ) ， 然 后 在 测试 集 上 评估 最 终 模 
型 : 


靖 导 


一 
final model = grid_search,best_estimator_ 


X_test = strat test_ set.drop("median house_ value", axis=1) 
y_test = strat_ test_ set["median_ house_ value"].copy() 

Xx_ test_prepared = full pipeline.transform(X_test) 

final predictions = final model.predict(Xx_ test_prepared) 


final mse = mean_squared error(y_test, final predictions) 
final_rmse = np.sqrt(final mse) # => evaluates to 48,209.6 








如 果 之 前 进行 过 大 量 的 超 参数 调整 ， 这 时 的 评估 结果 通常 会 略 撑 于 
你 之 前 使 用 交叉 验证 时 的 表现 结果 (因为 通过 不 断 调 整 ， 系 统 在 验证 数 
据 上 终于 表现 民 好 ， 在 未 知 数据 集 上 可 能 达 不 到 这 么 好 的 效果 ) 。 在 本 
例 中 ， 结 果 虽 然 并 非 如 此 ， 但 是 当 这 种 情况 发 生 时 ， 你 一 定 要 妨 住 继续 
调整 超 参 数 的 诱惑 ， 不 要 试图 再 努力 让 测试 集 的 结果 也 变 得 好 看 一 些 ， 
因为 这 些 改 进 在 泛 化 到 新 的 数据 集 时 又 会 变 成 徒劳 。 


现在 进入 项 目 预 局 动 阶段 :你 将 要 展示 你 的 解决 方案 (强调 学 习 了 
什么 ， 什 么 有 用 ， 什 么 没有 用 ， 基 于 什么 假设 ， 以 及 系统 的 限制 有 哪 
些 ) ， 记 录 所 有 事情 ， 通 过 清晰 的 可 视 化 和 易于 记忆 的 陈述 方式 ， 制 作 
漆 亮 的 演示 文 入 《〈 例 如 ,“ 收 入 中 位 数 是 预测 房价 的 首要 指标 >) 。 











启动 、 监 控 和 维护 系统 


你 的 系统 获准 局 动 了 ! 你 需要 为 生产 环境 做 好 准备 ， 特 别 是 将 生产 
数据 源 接 入 系统 ， 并 编写 测试 。 


还 需要 编写 监控 代码 ， 以 定期 检查 系统 的 实时 性 能 ， 同 时 在 性 能 
降 时 触发 警报 。 重 要 的 是 ， 这 里 需要 捕捉 的 不 仅 只 是 突然 的 系统 朋 尝 ， 
系统 性 能 的 退化 也 值得 关注 。 这 个 问题 很 常见 ， 因 为 随 厦 时间 的 推移 ， 
数据 不 断 进化 ， 模 型 会 渐渐 “ 腐 坏 "， 除 非 定期 使 用 新 数据 训练 模型 。 


评估 系统 性 能 ， 需 要 对 系统 的 预测 结果 进行 抽样 并 评估 。 通 常 这 一 
步 需 要 人 工分 析 。 分 析 师 可 能 是 领域 专家 ， 或 者 是 众 包 平台 的 工作 人 员 
(例如 Amazon Mechanical Turk 或 CrowdFlower) 。 不 管 怎么 说 ， 你 都 需 
要 将 人 工 评 估 的 流水 线 接 入 你 的 系统 。 


你 还 需要 评估 输入 系统 的 数据 的 质量 。 质 量 较 差 的 数据 (比如 用 来 
发 送 随 机 值 的 传 感 希 故障 ， 或 者 是 其 他 团队 的 输出 变 得 过 时 ) 会 导致 性 
能 略微 下 降 ， 但 是 要 降 到 触发 警报 还 需要 一 段 时 间 。 上 所 以 如 果 你 监控 系 
统 的 输入 ， 束 可 以 更 快 地 捕捉 到 这 个 信号 。 对 于 在 线 学 习 来 说 ， 监 控 系 
统 输入 尤其 重要 。 


一 般 来 说 ， 最 后 你 要 使 用 新 鲜 数 据 定期 训练 你 的 模型 。 这 个 过 程 要 
尽 可 能 自动 化 。 如 耕 不 然 ， 你 很 有 可 能 每 6 个 月 (最 多 ) 需要 更 新 一 次 
你 的 模型 ， 久 而 久之 ， 系 统 性 能 也 会 发 生 严 重 波动 。 如 果 是 在 线 学 习 系 
0 


























斌 计生 

希望 通过 本 章 内 容 ， 能 够 让 你 了 解 一 个 机 器 学 习 项 目 大 概 是 什么 样 
子 ， 同 时 本 章 也 提供 了 一 些 用 来 训练 系统 的 工具 。 如 你 所 见 ， 大 部 分 工 
作 主 要 用 在 数据 准备 、 构 建 监 探 工具、 建立 人 工 评 估 的 流水 线 以 及 自动 
定期 训练 模型 上 。 机 器 学 习 的 算法 固然 重要 ， 但 是 最 好 还 是 对 整个 流程 
都 熟悉 一 遍 ， 掌 握 3 一 4 个 合适 的 算法 ， 不 要 将 所 有 的 时 间 都 用 来 探索 高 
级 的 算法 ， 而 对 整个 流程 视而不见 。 


如 琳 你 还 没有 动手 尝试 ， 现 在 是 打开 电脑 的 好 时 机 ， 选 择 一 个 你 感 
兴趣 的 数据 集 ， 答 试 从 A 到 Z 的 整个 过 程 。 浇 如 http:/kagele.com/ 的 竞赛 
网 站 是 一 个 不 错 的 起 点 : 它 会 给 你 一 个 数据 集 、 一 个 明确 的 目标 ， 以 及 
可 以 一 起 分 享 经 验 的 同伴 。 





练习 
使 用 本 章 的 房屋 数据 集 : 


1. 使 用 不 同 的 超 参 数 ， 如 kernel="linear" (具有 C 超 参数 的 多 种 值 ) 
或 Kkernel="rbf"〈(C 超 参数 和 gamma 超 参数 的 多 种 值 ) ， 尝 试 一 个 支持 问 
量 机 回归 器 ， 不 用 担心 现在 不 知道 这 些 超 参 数 的 含义 。 最 好 的 SVR 预 测 
器 是 如 何 工作 的 ? 


2. 尝 试用 RandomizedSearchCV 蔡 换 GridSearchCV。 


3. 稚 试 在 准备 流水 线 中 讨 加 一 个 转换 器 ， 从 而 只 选 出 最 重要 的 属 


4. 笑 试 创 建 一 个 履 盖 完整 的 数据 准备 和 最 终 预测 的 流水 线 。 
5. 使 用 GridSearchCV 自动 探索 一 些 准 备 选项 。 


以 上 练习 的 解决 方案 可 以 在 Jupyter 笔 记 本 上 获得 ， 链 接地 址 


为 : https://github.com/ageron/handson-ml。 


第 3 章 分 类 

第 1 章 提 到 ， 最 常见 的 监督 式 学 习 任 务 包括 回归 任务 (预测 值 〉 和 
分 类 任务 (预测 类 ) 。 第 2 章 探 讨 了 一 个 回归 任务 一 一 预测 住房 价格 ， 
用 到 了 线性 回归 、 决 策 树 以 及 随机 森林 等 各 种 算法 (我 们 将 会 在 后 续 章 
节 中 进一步 讲解 这 些 算法 ) 。 本 章 中 我 们 将 把 注意 力 转 问 分 类 系统 。 





MNIST 


本 章 将 使 用 MNIST 数 据 集 ， 这 是 一 组 由 美国 高 中 生 和 人 口 调查 局 员 
工 手 写 的 70000 个 数字 的 图 片 。 每 张 图 像 都 用 其 代表 的 数字 标记 。 这 个 
数据 集 被 广 为 使 用 ， 因 此 也 被 称 作 是 机 器 学 习 领 域 的 “Hello World”: 但 
凡 有 人 想到 了 一 个 新 的 分 类 算法 ， 都 会 想 看 看 在 MNIST 上 的 执行 结 
因此 只 要 是 学 习 机 器 学 习 的 人 ， 早 晚 都 要 面 对 MNIST。 


Scikitr-Leam 提 供 了 许多 助手 功能 来 帮助 你 下 载 流 行 的 数据 集 。 
MNIST 也 是 其 中 之 一 。 下 面 是 获取 MNIST 数 据 集 的 代码 : 凯 








>>> from sklearn.datasets import fetch mldata 
>>> mnist = fetch mldata( 'MNIST original') 


>>> mnist 
{'COL_NAMES': ['label', 'data'], 
'DESCR': 'mldata.org dataset: mnist-original', 
'data': array([[90, 0, 0, ..., 0, 0, 0], 
[9, 9, 09, 冯 基 蝇 党 09, 09, 90], 
[9, 0, 09, / 9， 09, 90], 
i 
[9, 9， 09, / 9， 09, 0], 
[9, 9， 9, / 9， 09, 9], 
[0, ©0, 0, ..., 0, 90, 0]], dtype=uint8), 
'target': array([ 0., 0., 0., ..., 9., 9., 9.])} 





Scikit-Learn 加 载 的 数据 集 通 常 具 有 类 似 的 字典 结构 ， 包 括 : 
.DESCR 键 ， 描 述 数据 集 

-data 键 ， 包 含 一 个 数组 ， 每 个 实例 为 一 行 ， 每 个 特征 为 一 列 
target 键 ， 包 含 一 个 带 有 标记 的 数组 

我 们 来 看 看 这 些 数组 : 








>>> XxX, y = mnist["data"], mnist["target"] 
>>> X.Shape 

(70000, 784) 

>>> y.shape 

(70000, ) 





共有 7 万 张 图片 ， 每 张 图 片 有 784 个 特征 。 因 为 图 片 是 28x28 像 素 ， 


每 个 特征 代表 了 一 个 像素 点 的 强度 ， 从 0《〈 白 色 ) 到 255 (黑色 〉。 先 来 
看 看 数据 集中 的 一 个 数字 ， 你 只 需要 随手 抓 取 一 个 实例 的 特征 问 量 ， 将 
其 重新 形成 一 个 28x28 数 组 ， 然 后 使 用 Matplotlib 的 imshow () 函数 将 其 
显示 出 来 : 








%matplotlib inline 
import matplotlib 
import matplotlib.pyplot as pilt 


some_digit = X[36000] 
some_digit image = some_digit.reshape(28, 28) 


plt.imshow(some_digit image, cmap = matplotlib,.cm.binary, 
interpolation="nearest") 

plt.axis("off") 

plt.show() 





看 起 来 像 一 个 5， 而 标签 告诉 我 们 没 错 : 





>>> y[36000] 
5.0 








0 
杂 程 度 有 一 个 初步 的 感受 。 


可 是 等 等 ! 在 开始 深入 研究 这 些 数据 之 前 ， 你 还 是 应 该 先 创建 一 个 
测试 集 ， 并 将 其 放 在 一 边 。 事 实 上 MNIST 数 据 集 已 经 分 成 训练 集 (前 6 
万 张 图 像 》》 和 测试 集 (最 后 1 万 张 图 像 ) 了: 








Xx_train, Xx test, y_train, y_test = Xx[:60000], Xx[60000:], y[:60000], y[60000:] 





0600000001 
/111141717I 
AA21L ZARAAD 
333323739)3 
44Y4YS 4 
人 
beobelvbbbb 
ddl 
488878797》 
rangirnonrsy 


图 3-1: MNIST 数 据 集中 的 部 分 数字 图 像 


同样 ， 我 们 先 将 训练 集 数据 洗 牌 ， 这 样 能 保证 交叉 验证 时 所 有 的 折 
登 都 差不多 〈 你 肯定 不 希望 某 个 折合 丢失 一 些 数字 ) 。 此 外 ， 有 坚 机 各 
学 习 算 法 对 训练 实例 的 顺序 敏感 ， 如 果 连 续 输 入 许多 相似 的 实例 ， 3 
导致 执行 性 能 不 佳 。 给 数据 集 洗 牌 正 是 为 了 确保 这 种 情况 不 会 发 生 : 








import numpy as np 


shuffle_index np.ran yn .permutation(60000) 
Xx_train, vi Pa Xx_ train[shuffle index], y_train[shuffle index] 


L111] 默认 情况 下 ，Scikit-Learn 将 下 载 的 数据 集 缓存 在 目录 
$HOME/scikit_learn_data 中 。 

[2] 在 某 些 情况 下 ， 给 数据 洗 牌 可 能 是 个 坏 主意 一 比如 你 处 理 的 是 时 间 
序列 数据 (例如 ， 上 股票 市 场 价格 或 者 天 气 情 况 ) 。 我 们 将 在 下 一 章 探讨 


这 个 问题 。 





训练 一 个 二 元 分 关 喜 

现在 ， 先 简化 问题 ， 只 尝试 识别 一 个 数字 一 一 比如 数字 5。 那 么 这 
个 “数字 5 检测 器 * 就 是 一 个 二 元 分 类 器 的 例子 ， 它 只 能 区 分 两 个 类 别 ，5 
和 非 5。 先 为 此 分 类 任务 创建 目标 向 量 : 





y_train 5 = (y_train == 5) # True for all 5s, False for all other digits. 
y_test 5 = (y_test == 5) 








接着 挑选 一 个 分 类 器 并 开始 训练 。 一 个 好 的 初始 选择 是 随机 梯度 下 
降 (SGD) 分 类 器 ， 使 用 Scikit-Learn 的 SGDClassifier 类 即 可 。 这 个 分 类 
器 的 优势 是 ， 能 够 有 效 处 理 非 常 大 型 的 数据 集 。 这 部 分 是 因为 SGD 独 立 
处 理 训练 实例 ， 一 次 一 个 (这 也 使 得 SGD 非 常 适 合 在 线 学 习 )〉 ， 稍 后 我 
们 将 会 看 到 。 此 时 先 创 建 一 个 SGDClassifier 并 在 整个 训练 集 上 进行 训 


So\: 





from sklearn.linear_ model import SGDClassifier 


sgd_clf = SGDClassifier(random_ state=42) 
sgd_clf.fit(X train, y_train_5) 





SGDClassifier 在 训练 时 是 完全 随机 的 (因此 得 名 “随机 ”) ， 如 果 你 
希望 得 到 可 复 现 的 结果 ， 需 要 设置 参数 random_state。 


现在 可 以 用 它 来 检测 数字 5 的 图 像 了 : 





>>> sgd_clf.predict([some_digit]) 


array([ True], dtype=bool) 








分 类 器 猜 这 个 图 像 代 表 一 个 5(True〉。 看 起 来 这 次 它 猿 对 了 ! 那 
么 ， 下 面 评 信 一 下 这 个 模型 的 性 能 。 


性 能 考核 

评估 分 类 器 比 评估 回归 器 要 困难 得 多 ， 因 此 本 半 将 用 很 多 篇 幅 来 讨 
论 这 个 主题 ， 同 时 会 涉及 许多 性 能 考核 的 方法 ， 所 以 ， 不 妨 再 倒 一 杯 咖 
啡 ， 做 好 准备 学 习 更 多 的 新 概念 和 缩 略 词 吧 ! 
使 用 交叉 验证 测量 精度 

正如 第 2 章 所 述 ， 交 叉 验 证 是 一 个 评估 模型 的 好 办 法 。 

实施 交叉 验证 

相 比 于 cross_val_score 〈) 这 一 类 交叉 验证 的 函数 ， 有 时 你 可 能 

望 目 己 能 控制 得 多 一 些 。 在 这 种 情况 下 ， 你 可 以 自行 实施 交叉 验证 ， 操 


作 也 简单 明了 。 下 面 这 段 代 码 与 前 面 的 cross_val_score () 大 致 相同 ， 
并 打印 出 相同 的 结 











from sklearn.model selection import StratifiedKFold 
from sklearn.base import clone 


skfolds = StratifiedKFold(n_splits=3, random_ state=42) 


for train_index, test_index in skfolds.split(X train, y_train 5): 
clone_ clf = clone(sgd_ clf) 
X_train_ folds = Xx_ train[train_ index] 
y_train folds = (y_train 5[train_index]) 
X_test_ fold = x train[test_index] 
y_test_ fold = (y_train_5[test_index]) 





clone clf.fit(X train folds, y_train folds) 

y_pred = clone cilf,.predict(X test_ fold) 

n_correct = sum(y_pred == y_test_ fold) 

print(n_correct / len(y_pred)) # prints 0.9502, 0.96565 and 0.96495 








每 个 折 有 登 由 StratifiedKFold 执 行 分 层 抽 样 〈“ 见 第 2 章 ) 产生 ， 其 所 包 
售 的 各 个 类 的 比例 符合 整体 比例 。 每 个 迭代 会 创建 一 个 分 类 需 的 副本 ， 
用 训练 集 对 这 个 副本 进行 训练 ， 然 后 用 测试 集 进行 预测 。 最 后 计算 正确 
预测 的 次 数 ， 输 出 正确 预测 的 比率 。 


现在 ， 用 cross_val_score 〈) 函数 来 评估 SGDClassifier 模 型 ， 采 用 
K-fold 交 又 验 证 法 ，3 个 折 钱 。 记 住 ，K-fold 交 又 验 证 的 意思 是 将 训练 集 
分 解 成 K 个 折 羞 (在 本 例 中 ， 为 3 折 ) ， 然 后 每 次 留 其 中 1 个 折 和 县 进行 预 


测 ， 算 余 的 折合 用 来 训练 “参见 第 2 章 ): 





>>> from sklearn.model selection import cross val score 
>>> cross_val score(sgd cilf, Xx _ train, y_train 5, cv=3, scoring="accuracy") 
array([ 0.9502 ， 0.96565， 0.96495]) 





所 有 折合 交叉 验证 的 准确 率 正确 预 测 的 比率 ) 超过 95%? 看 起 来 
挺 神奇 的 ， 是 吗 ? 不 过 在 你 开始 激动 之 前 ， 我 们 来 看 一 个 莉 答 的 分 类 
胡 ， 它 将 每 张 图 都 分 类 成 “ 非 5”: 








from sklearn.base import BaseEstimator 


class Nevers5Classifier(BaseEstimator): 
def fit(self, XxX, y=None): 
pass 
def predict(self, XxX): 
return np.zeros((len(X), 1), dtype=bool) 





能 猜 到 这 个 模型 的 准确 度 吗 ? 我 们 看 看 : 





>>> never 5 _clf = NeversClassifier() 
>>> cross_val score(never_5 clf, Xx train, y_train 5, cv=3, scoring="accuracy") 
array([ 0.909 , 0.90715, 0.9128 ]) 








没 错 ， 人 准确 率 超过 90%! 这 是 因为 只 有 大 约 10% 的 图 像 是 数字 5， 所 
以 如 果 你 猜 一 张 图 不 是 5，90% 的 时 间 你 都 是 正确 的 ， 简 直 超 越 了 大 预 
言 家 ! 

这 说 明 准 确 率 通常 无 法 成 为 分 类 器 的 首要 性 能 指标 ， 特 别 是 当 你 处 
理 偏 斜 数据 集 (skewed dataset) 的 时 候 〈 即 某 些 类 比 其 他 类 更 为 频 
2 
混 请 矩阵 

评估 分 类 器 性 能 的 更 好 方法 是 混 请 矩阵 。 总 体 思 路 就 是 统计 A 类 别 
实例 被 分 成 为 B 类 别 的 次 数 。 例 如 ， 要 想 知 道 分 类 器 将 数字 3 和 数字 5 混 
消 多 少 次 ， 只 需要 通过 混 请 矩阵 的 第 5 行 第 3 列 来 查看 。 

要 计算 混淆 矩阵， 需要 先 有 一 组 预测 才能 将 其 与 实际 目标 进行 比 
较 。 当 然 可 以 通过 测试 集 来 进行 预测 ， 但 是 现在 先 不 要 动 它 (测试 集 最 








好 留 到 项 目 最 后 ， 准 备 局 动 分 类 器 时 再 使 用 ) 。 作 为 蔡 代 ， 可 以 使 用 
cross_Vval_predict () 函数 : 





from sklearn.model selection import cross val predict 


y_train pred = cross val predict(sgd clf, x train, y_train 5, cv=3) 





与 cross_val_score() 函数 一 样 ，cross_val_predict () 函数 同样 执 
行 K-fold 交 义 验 证 ， 但 返回 的 不 是 评估 分 数 ， 而 是 每 个 折 针 的 预测 。 这 
意味 着 对 于 每 个 实例 都 可 以 得 到 一 个 干 泽 的 预测 (“干净 ”的 意思 是 模型 
预测 时 使 用 的 数据 ， 在 其 训练 期 间 从 未 见 过 ) 。 


现在 ， 可 以 使 用 confusion_matrix () 函数 来 获取 混淆 矩阵 了 。 只 需 
要 给 出 目标 类 别 〈y_train_5) 和 预测 类 别 〈y_train_pred) 即 可 : 

















>>> from sklearn.metrics import confusion_matrIx 
>>> confusion matrix(y_train 5, y_train_pred) 
array([[53272， 1307], 

[ 1077, 4344]]) 











混 消 和 矩阵 中 的 行 表示 实际 类 别 ， 列 表示 预测 类 别 。 本 例 中 第 一 行 表 
示 所 有 “ 非 5”( 负 类 ) 的 图 片 中 : 53272 张 被 正确 地 分 为 * 非 5 类 别 〈 真 
负 类 ) ，1307 张 被 错误 地 分 类 成 了 “5”( 假 正 类 ) ; 第 二 行 表示 所 
有 “5”( 正 类 ) 的 图 片 中 : 1077 张 被 错误 地 分 为 “ 非 5” 类 别 ( 假 负 类 ) ， 
4344 张 被 正确 地 分 在 了 “5” 这 一 类 别 〈 真 正 类 ) 。 一 个 完美 的 分 类 器 只 
有 真正 类 和 真 负 类 ， 所 以 它 的 混 消 矩阵 只 会 在 其 对 角 线 〈 左 上 到 右 下 ) 
上 有 非 零 值 : 








>>> Confusion_matrix(y_train 5，y_train_perfect_predictions ) 
array([[54579， 0], 
0, 5421]]) 











混淆 矩阵 能 提供 大 量 信 息 ， 但 有 时 你 可 能 希望 指标 更 简洁 一 些 。 正 
类 预测 的 准确 率 是 一 个 有 意思 的 指标 ， 它 也 称 为 分 类 器 的 精度 (公式 3- 
1) : 


公式 3-1: 精度 


7P 
用 度 = 隐 + 


TP 是 真正 类 的 数量 ，FP 是 假 正 类 的 数量 。 

做 一 个 单独 的 正 类 预测 ， 并 确保 它 是 正确 的 ， 就 可 以 得 到 完美 精度 
(精度 二 1 二 100%) 。 但 这 没什么 意义 ， 因 为 分 类 器 会 忽略 这 个 正 类 
实例 之 外 的 所 有 内 容 。 因 此 ， 精 度 通 常 与 男 一 个 指标 一 起 使 用 ， 这 个 指 
标 就 是 召回 率 (recall) ， 也 称 为 灵敏 度 (sensitivity) 或 者 真正 类 率 
CTPR) : 它 是 分 类 占 正 确 检 测 到 的 正 类 实例 的 比率 (公式 3-2) : 


式 3-2: 召回 率 Tp 
pA Be 
4 回 这 TP + FN 


FN 是 假 负 类 的 数量 。 


如 果 你 对 混 消 矩阵 还 是 感到 疑惑 ， 图 3-2 或 许可 以 帮助 你 理解 。 











预测 






精度 
(例如 4 个 对 了 3 个 


(例如 5 个 里 找 出 了 3 个) 








图 3-2: 图 解 混 消 和 窍 阵 
精度 和 召回 率 


Scikit-Leam 提 供 了 计算 多 种 分 类 器 指标 的 函数 ， 精 度 和 召回 率 也 是 








>>> from sklearn.metrics import precision score, recall score 

>>> precision_score(y_train 5, y_pred) # == 4344 / (4344 + 1307) 
0.76871350203503808 

>>> recall score(y_train 5, y_train pred) # == 4344 / (4344 + 1077) 
0.79136690647482011 








现在 再 看 ， 这 个 5- 检 测 占 看 起 来 似乎 并 不 像 它 的 准确 率 那 么 光鲜 膨 
眼 了 。 当 它 说 一 张 图 片 是 5 时 ， 只 有 77% 的 时 间 是 准确 的 ， 并 且 也 只 有 
79% 的 数字 5 被 它 检 测 出 来 了 。 


因此 我 们 可 以 很 方便 地 将 精度 和 召回 率 组 合成 一 个 单一 的 指标 ， 称 
为 Fi 分 数 。 当 你 需要 一 个 简单 的 方法 来 比较 两 种 分 类 圳 时 ， 这 是 个 非常 








不 错 的 指标 。Ei 分 数 是 精度 和 召回 率 的 谐 波 平均 值 〈《 见 公式 3-3) 。 正 
常 的 平均 值 平 等 对 待 所 有 的 值 ， 而 谐 波 平均 值 会 给 予 较 低 的 值 更 高 的 权 
重 。 因 此 ， 只 有 当 如 回 率 和 精度 都 很 高 时 ， 分 类 天 才能 得 到 较 高 的 Fi 分 
数 。 


公式 3-3:，F1 分 数 
) 精度 X 召回 率 7P 
WE _ ) 区 8 回来 


Li 生 度 + 召回 率 FN+ FP 


靖 度 ”如 回来 ) 


要 计算 Fi 分数 ， 只 需要 调用 f1_score〈() 即 可 : 














>>> from sklearn.metrics import f1_score 
>>> f1_ score(y_train 5, y_pred) 
0.78468208092485547 





Fj 分 数 对 那些 具有 相近 的 精度 和 召回 率 的 分 类 器 更 为 有 利 。 这 不 一 
定 能 一 直 符 合 你 的 期 望 : 在 某 些 情况 下 ， 你 更 关心 的 是 精度 ， 而 男 一 些 
情况 下 ， 你 可 能 真正 关心 的 是 召回 率 。 例 如 ， 假 设 你 训练 一 个 分 类 器 来 
检测 儿童 可 以 放心 观看 的 视频 ， 那 么 你 可 能 更 青睐 那 种 拦截 了 很 多 好 视 
频 ( 低 召回 率 ) ， 但 是 保留 下 来 的 视频 都 是 安全 《高 精度 ) 的 分 类 器 ， 
而 不 是 召回 率 虽 高 ， 但 是 在 产品 中 可 能 会 出 现 一 些 非常 糟糕 的 视频 的 分 
类 器 (这 种 情况 下 ， 你 甚至 可 能 会 添加 一 个 人 工 流水 线 来 检查 分 类 器 选 
出 来 的 视频 ) 。 反 过 来 说 ， 如 果 你 训练 一 个 分 类 器 通过 图 像 监 控 来 检测 
小 偷 : 你 大 概 可 以 接受 精度 只 有 30%， 只 要 召回 率 能 达到 99% (当然 ， 
安保 人 员 会 收 到 一 些 错误 的 警报 ， 但 是 几乎 所 有 的 窃贼 都 在 劫难 逃 ) 。 


遗憾 的 是 ， 鱼 和 能 掌 不 可 兼 得 : 你 不 能 同时 增加 精度 并 减少 召回 
率 ， 反 之 亦 然 。 这 称 为 精度 /召回 率 权衡 。 


精度 /召回 率 权 光 
要 理解 这 个 权衡 过 程 ， 我 们 来 看 看 SGDClassifier 如 何 进 行 分 类 决 




















策 。 对 于 每 个 实例 ， 它 会 基于 决策 函数 计算 出 一 个 分 值 ， 如 果 该 值 大 于 
国 值 ， 则 将 该 实例 判 为 正 类 ， 人 否则 便 将 其 判 为 负 类 。 图 3-3 显 示 了 从 左 
边 最 低 分 到 右边 最 高 分 的 几 个 数字 。 假 设 决策 阔 值 位 于 中 间 箭 头 位 置 
《两 个 5 之 间 ) : 在 浆 值 的 右 侧 可 以 找到 4 个 真正 类 《〈 真 的 5) ， 一 个 假 
正 类 (实际 上 是 6) 。 因 此 ， 在 该 闽 值 下 ， 精 上 度 为 80% (4/5) 。 但 是 在 6 
个 真正 的 5 中 ， 分 类 器 仅 检 测 到 了 4 个 ， 所 以 召回 率 为 67% (4/6) 。 现 
在 ， 如 果 提 高 靖 值 〈 将 其 挪动 到 右边 箭头 的 位 置 ) ， 假 正 类 (数字 6) 
变 成 了 真 负 类 ， 因 此 精度 得 到 提升 〈 本 例 中 提升 到 100%) ， 但 是 一 个 
真正 类 变 成 一 个 假 负 类 ， 召 回 率 降 低 至 50%。 反 之 ， 降 低 靖 值 则 会 在 增 
加 召回 率 的 同时 降低 精度 。 








精度 ，68=75% 4/5=80% 3/3=100% 
召回 率 ， 6/6=100% 4/6=67% 3/6=50% 
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图 3-3: 决策 阐 值 和 精度 /召回 率 权 衡 


Scikit-Learn 个 允许 直接 设置 闵 值 ， 但 是 可 以 访问 它 用 于 预测 的 决策 
分 数 。 不 是 调用 分 类 器 的 predict() 方法 ， 而 是 调用 
decision_function〈) 方法 ， 这 个 方法 返回 每 个 实例 的 分 数 ， 然 后 就 可 以 
根据 这 些 分 数 ， 使 用 任意 国 值 进行 预测 了 : 





>>> y_scores = Sgd_clf,.decision_function([some_digit]) 
>>> y_scores 

array([ 161855.74572176] ) 

>>> threshold = 0 

>>> yY_Some_digit_pred = (y_scores > threshold) 
array([ True], dtype=bool) 





SGDClassifier 分 类 器 使 用 的 闵 值 是 9， 所 以 前 面 的 代码 返回 结果 与 
predict( ) 方法 一 样 〈 也 就 是 True) 。 我 们 来 试 试 提 升 阔 值 : 





>>> threshold = 200000 

>>> y_some_ digit pred = (y_scores > threshold) 
>>> y_some_digit_pred 

array([False], dtype=bool) 





这 证 明了 提 电 阐 值 确实 可 以 降低 召回 率 。 这 张 图 确实 是 5， 当 阐 值 
为 O 时 ， 分 类 器 可 以 检测 到 该 图 ， 但 是 当 阐 值 提高 到 200000 时 ， 束 错过 
了 这 张 图 。 


那么 要 如 何 诀 定 使 用 什么 装 值 呢 ? 首先 ， 使 用 cross_val_predict () 
函数 获取 训练 集中 所 有 实例 的 分 数 ， 但 是 这 次 需要 它 返 回 的 是 决 集 分 数 
而 不 是 预测 结果 : 











y_scores = cross val predict(sgd cilf, Xx train, y_train 5, cv=3, 
method="decision_ function") 





有 了 这 些 分 数 ， 可 以 使 用 precision_recall_curve() 函数 来 计算 所 有 
可 能 的 国 值 的 精度 和 召回 率 : 





from sklearn.metrics import precision_recall curve 


precisions, recalls, thresholds = precision recall curve(y_train 5, y_scores) 








最 后 ， 使 用 Matplotlib 绘 制 精度 和 召回 率 相 对 于 阔 值 的 函数 图 ( 见 
Bd 





def plot_precision recall vs threshold(precisions, recalls, thresholds): 
plt.plot(thresholds, precisions[:-1], "b--", label="Precision") 
plt.plot(thresholds, recalls[:-1], "g-", label="Recall") 
plt.xlabel("Threshold") 
plt.legend(loc="upper left") 
plt.ylim([0, 1]) 


plot_precision_ recall vs_ threshold(precisions, recalls, thresholds) 
plt.show() 
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图 3-4: 精度 和 召回 率 vs 诀 策 国 值 








队 休 可 能 会 感到 好 奇 为 什么 在 图 3-4 中 精度 曲线 比 召 回 率 曲 线 要 
崎 虹 一 些 ? 原因 在 于 ， 当 你 提高 浆 值 时 ， 精 度 有 时 也 有 可 能 会 下 降 〈 尽 
管 总 体 趋势 是 上 升 的 ) 。 要 理解 原因 ， 可 以 回头 看 图 3-3， 注 意 ， 当 把 
国 值 从 中 间 箭 头 往 右 移 动 一 位 数 时 : 精度 从 4/5 (80%) 下 降 到 
3/4 (75%) 。 男 一 方面 ， 当 阐 值 上 升 时 ， 召 回 率 只 会 下 降 ， 这 就 解释 了 
为 什么 召回 率 的 曲线 看 起 来 很 平滑 。 


现在 ， 就 可 以 通过 轻松 选择 浆 值 来 实现 最 佳 的 精度 /和 台 回 率 权 衔 
了 。 还 有 一 种 找到 好 的 精度 /召回 率 权 衡 的 方法 是 直接 绘制 精度 和 召回 
率 的 函数 图 ， 如 图 3-5 所 示 。 
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图 3-5: 精度 vs 召回 率 


从 图 中 可 以 看 到 ， 从 80% 的 召回 率 往 右 ， 精 度 开始 急剧 下 降 。 你 可 
能 会 尽量 在 这 个 陡 降 之 前 选择 一 个 精度 /召回 率 权 衡 一 一 比如 召回 率 
60%。 妆 然 ， 如 何 选择 取决 于 你 的 项 目 。 

假设 你 决定 瞄准 90% 的 精度 目标 。 通 过 绘制 的 第 一 张 图 (放大 一 
点 ) ， 得 出 需要 使 用 的 阔 值 大 概 是 70000。 要 进行 预测 (现在 是 在 训练 
集 上 ) ， 除 了 调用 分 类 器 的 predict〈) 方法 ， 也 可 以 运行 这 段 代 码 : 











y_train pred 90 = (y_scores > 70000 ) 





我 们 检查 一 下 这 些 预 调 结果 的 精度 和 召回 率 : 





>>> precision_ score(y_train 5, y_train_pred_90) 
0.8998702983138781 

>>> recall score(y_train 5, y_train pred 90) 
0.63991883416343853 











现在 你 有 一 个 90% 精 度 的 分 类 器 了 《或 者 足够 接近 ) ! 如 你 所 见 ， 
创建 任意 一 个 你 想 要 的 精度 的 分 类 右 是 相当 容易 的 事情 ; 只 要 浆 值 足够 
高 即 可 ! 然而 ， 如 果 召 回 率 太 低 ， 精 度 再 高 ， 其 实 也 不 怎么 有 用 ! 











多 如果 有 人 说 ，" 我 们 需要 9996 的 精度 。* 你 就 应 该 问 ，“ 召 回 率 是 
多 少 ? ” 


ROC 曲 线 


还 有 一 种 经 常 与 二 元 分 类 器 一 起 使 用 的 工具 ， 叫 作 受 试 者 工作 特征 
曲线 (简称 ROC)〉。 它 与 精度 /召回 率 曲线 非常 相似 ， 但 绘制 的 不 是 精 
度 和 召回 率 ， 而 是 真正 类 率 〈 召 回 率 的 另 一 名 称 ) 和 假 正 类 率 
(FPR) 。EFPR 是 被 错误 分 为 正 类 的 负 类 实例 比率 。 它 等 于 1 减 去 真 负 类 
率 CTNR) ， 后 者 是 被 正确 分 类 为 负 类 的 负 类 实例 比率 ， 也 称 为 特异 
度 。 因 此 ，ROC 曲 线 绘制 的 是 灵敏 度 和 “1- 特 异 度 ) 的 关系 。 


要 绘制 ROC 曲 线 ， 首 先 需要 使 用 roc_curve 〈() 函数 计算 多 种 闷 值 的 
TPR 和 FPR: 


























from sklearn.metrics import roc_curve 


fpr, tpr, thresholds = roc_curve(y_train 5, y_scores) 





然后 ， 使 用 Matplotlib 绘 制 FPR 对 TPR 的 曲线 。 下 面 的 代码 可 以 绘制 
出 图 3-6 的 曲线 : 





def plot_roc_curve(fpr，tpr，1Label=None ) : 
plt.plot(fpr, tpr, linewidth=2, label=label) 
plt.plot([9, 1], [9, 1], 'k--') 
plt.axis([0, 1, 0, 1]) 
plt.xlabel('False Positive Rate') 
plt.ylabel('True Positive Rate') 


plot_roc_curve(fpr, tpr) 
plt.show() 


和 




















图 3-6: ROC 曲 线 


同样 这 里 再 次 面临 一 个 打 中 权衡 : 召回 率 (TPR) 越 高 ， 分 类 器 产 
生 的 假 正 类 〈FPR) 就 越 多 。 虚 线 表 示 纯 随机 分 类 器 的 ROC 曲 线 ; 一 个 
优秀 的 分 类 器 应 该 离 这 条 线 越 远 越 好 《向 左上 角 ) 。 





有 一 种 比较 分 类 器 的 方法 是 测量 曲线 下 面积 (AUC) 。 完 美的 分 类 
器 的 ROC AUC 等 于 1， 而 纯 随机 分 类 器 的 ROC AUC 等 于 0.5。 Scikit- 
Learn 提 供 计 算 ROC AUC 的 函数 : 





>>> from sklearn.metrics import roc_auc_score 
>>> roc_auc_score(y_train 5, y_scores) 
©.97061072797174941 











全 于 ROC 晶 线 与 精度 /召回 率 (或 PR〉 曲 线 非常 相似 ， 因 此 你 可 
能 会 问 如 何 决 定 使 用 哪 种 曲线 。 有 一 个 经 验 法 则 是 ， 当 正 类 非常 少见 或 
者 你 更 关注 假 正 类 而 不 是 假 负 类 时 ， 你 应 该 选择 PR 曲线 ， 反 之 则 是 


ROC 曲 线 。 例 如 ， 看 前 面 的 ROC 曲 线 图 (以 及 ROC AUC 分 数 ) ， 你 可 
能 会 觉得 分 类 器 真 不 错 。 但 这 主要 是 因为 跟 负 类 〈 非 5) 相 比 ， 正 类 
(数字 5) 的 数量 真得 很 少 。 相 比 之 下 ，PR 曲 线 清 楚 地 说 明 分 类 器 还 有 
改进 的 空间 〈 曲 线 还 可 以 更 接近 右上 角 ) 。 


训练 一 个 RandomForestClassifier 分 类 器 ， 并 比较 它 和 SGDClassifier 
分 类 器 的 ROC 曲 线 和 ROC AUC 分 数 。 首 先 ， 获 取 训 练 集中 每 个 实例 的 
分 数 。 但 是 由 于 它 的 工作 方式 不 同 〈( 参 见 第 7 章 ) ， 
RandomForestClassifier 类 没有 decision function() 方法 ， 相 反 ， 它 有 的 
是 dict_proba() 方法 。Scikit-Learn 的 分 类 器 通常 都 会 有 这 两 种 方法 的 
其 中 一 种 。dict_proba 〈) 方法 会 返回 一 个 数组 ， 其 中 每 行为 一 个 实 
例 ， 每 列 代表 一 个 类 别 ， 意 思 是 某 个 给 定 实例 属于 某 个 给 定 类 别 的 概率 
(例如 ， 这 张 图 片 有 70% 的 可 能 是 数字 5) : 














from sklearn.ensemble import RandomForestClassifier 


forest_clf = RandomForestClassifier(random state=42) 
y_probas_ forest = cross_ val predict(forest clf, Xx train, y_train 5, cv=3, 
method="predict_proba") 





但 是 要 绘制 ROC 曲 线 ， 需 要 的 是 分 数值 而 不 是 概率 大 小 。 一 个 简单 
的 解决 方案 是 : 直接 使 用 正 类 的 概率 作为 分 数值 : 








y_scores_forest = y_probas forest[:, 1] # Score = proba of positive class 
fpr_forest, tpr_forest, thresholds forest = roc curve(y_train 5,y_scores forest) 








现在 可 以 绘制 ROC 曲 线 了 。 绘 制 第 一 条 ROC 曲 线 来 看 看 对 比 结果 
( 见 图 3-7) : 





plt.plot(fpr, tpr, "b:", label="SGD") 
plot_roc_curve(fpr_forest, tpr_forest, "Random Forest") 
plt.legend(loc="bottom right") 

plt.show() 
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图 3-7: ROC 曲 线 对 比 


如 图 3-7 所 示 ，RandomEForestClassifier 的 ROC 曲 线 看 起 来 比 
SGDClassifier 好 很 多 : 它 离 左上 角 更 接近 。 因 此 它 的 ROC AUC 分 数 也 


高 得 多 : 








>>> roc_auc_score(y_train 5, y_scores_forest) 
0.99312433660038291 








再 测 一 测 精 度 和 召回 率 的 分 数 ， 98.5% 的 精度 和 82.8% 的 召回 率 ， 也 
还 不 错 ! 


希望 现在 你 已 经 掌握 了 如 何 训练 二 元 分 类 器 ， 如 何 选择 合适 的 指标 
利用 交叉 验证 来 对 分 类 器 进行 评估 ， 如 何 选 择 满足 需求 的 精度 /召回 率 
权衡 ， 以 及 如 何 使 用 ROC 曲 线 和 ROC AUC 分 数 来 比较 多 个 模型 。 我 们 
再 来 试 试 对 数字 5 之 外 的 检测 。 





多 类 别 分 类 此 


二 元 分 类 器 在 两 个 类 别 中 区 分 ， 而 多 类 别 分 类 此 (也 称 为 多 项 分 类 
项 ) 可 以 区 分 两 个 以 上 的 类 别 。 


有 一 些 算法 〈( 如 随机 森林 分 类 器 或 朴素 贝 叶 斯 分 类 器 〉 可 以 直接 处 
理 多 个 类 别 。 也 有 一 些 严格 的 二 元 分 类 右 〈 如 支持 问 量 机 分 类 器 或 线性 
0 0 
类 的 目的 。 


例如 ， 要 创建 一 个 系统 将 数字 图 片 分 为 10 类 〈 从 0 到 9) ， 一 种 方法 
是 训练 10 个 二 元 分 类 器 ， 每 个 数字 一 个 0- 检测 器 、1- 检 测 器 、2- 检 测 
器 ， 等 等 ， 以 此 类 推 ) 。 然 后 ， 当 你 需要 对 一 张 图 片 进行 检测 分 类 时 ， 
获取 每 个 分 类 器 的 决策 分 数 ， 哪 个 分 类 器 给 分 最 高 ， 就 将 其 分 为 哪个 
类 。 这 称 为 一 对 多 (OvA) 策略 (也 称 为 one-versus-the-rest) 。 


另 一 种 方法 是 ， 为 每 一 对 数字 训练 一 个 二 元 分 类 器 ; 一 个 用 于 区 分 
0 和 1， 一 个 区 分 0 和 2， 一 个 区 分 1 和 2， 以 此 类 推 。 这 称 为 一 对 一 
(OvO) 策略 。 如 果 存 在 N 个 类 别 ， 那 么 这 需要 训练 Nx (CN-1) :2 个 分 
类 器 。 对 于 MNIST 问 题 ， 这 意味 着 要 训练 45 个 二 元 分 类 器 ! 当 需 要 对 一 
张 图 片 进行 分 类 时 ， 你 需要 运行 45 个 分 类 器 来 对 图 片 进 行 分 类 ， 最 后 看 
哪个 类 别 获胜 最 多 。OvO 的 主要 优点 在 于 ， 每 个 分 类 器 只 需要 用 到 部 分 
训练 集 对 其 必须 区 分 的 两 个 类 别 进 行 训 练 。 


有 些 算法 (例如 支持 癌 量 机 分 类 上 融 〉 在 数据 规模 扩大 时 表现 糟 料 ， 
因此 对 于 这 类 算法 ，OvO 是 一 个 优先 的 选择 ， 由 于 在 较 小 训练 集 上 分 别 
训练 多 个 分 类 器 比 在 大 型 数据 集 上 训练 少数 分 类 器 要 快 得 多 。 但 是 对 大 
多 数 二 元 分 类 器 来 说 ，OvA 策 略 还 是 更 好 的 选择 。 


Scikit-Learn 可 以 检测 到 你 尝试 使 用 二 元 分 类 算法 进行 多 类 别 分 类 任 
务 ， 它 会 目 动 运行 OQvVA 《SVM 分 类 器 除外 ， 它 会 使 用 OvO) 。 我 们 用 
SGDClassifier 试 试 : 














>>> Sgd_clf.fit(X_train，y_train) # y_train, not y_train_5 
>>> Sgd_clf.predict([some_digit]) 
array([ 5,]) 








非常 容易 ! 这 段 代 码 使 用 原始 目标 类 别 0 到 9 (y_train〉 在 训练 集 上 
对 SGDClassifier 进 行 训练 ， 而 不 是 以 “5 和 “剩余 ”作为 目标 类 别 
(y_train_5) 。 然 后 做 出 预测 《在 本 例 中 预测 正确 ) 。 而 在 内 部 ， 
Scikit-Learn 实 际 上 训练 了 10 个 二 元 分 类 器 ， 获 得 它们 对 图 片 的 决策 分 
数 ， 然 后 选择 了 分 数 最 高 的 类 别 。 


想 要 知道 是 不 是 这 样 ， 可 以 调用 decision_function () 方法 。 它 会 返 
回 10 个 分 数 ， 每 个 类 别 1 个 ， 而 不 再 是 每 个 实例 返回 1 个 分 数 : 





>>> some_digit_ scores = sgd_ cilf.decision function([some_digit]) 

>>> some_digit_scores 

array([[-311402.62954431, -363517.28355739, -446449.5306454 ， 
-183226.61023518, -414337.15339485, 161855.74572176, 
-452576.39616343, -471957.14962573, -518542.33997148, 
-536774.63961222]]) 








最 局 分 确实 是 对 应 数字 5 这 个 类 别 : 





>>> np.argmax(some_digit_ scores) 
与 


>>> sgd_clf.classes_ 

array([ 90., 1., 2., 3., 4., 5., 6., 7., 8., 9.]) 
>>> sgd_clf.classes[5] 

5.0 








各 人 sl 统 分 类 器 时 ， 目标 类 别 的 列表 会 存储 在 classes_ 这 个 属性 

中 ， 按 值 的 大 小 排序 。 在 本 例 里 ，classes_ 数 组 中 每 个 类 别 的 索引 正好 

对 应 其 类 别 本 身 〈 例 如 ， 索 引 上 第 5 个 类 别 正 好 是 数字 5 这 个 类 别 ) ， 但 
是 一 般 来 说 ， 不 会 这 么 恰巧 。 


如 果 想 要 强制 Scikit-Learn 使 用 一 对 一 或 者 一 对 多 策略 ， 可 以 使 用 
OneVsOne Classifier 或 OneVsRestClassifier 类 。 只 需要 创建 一 个 实例 ， 然 
后 将 三 元 分 类 器 传 给 其 构造 函数 。 例 如 ， 下 面 这 上 段 代 码 使 用 OvO 策 略 ， 
基于 SGDClassifier 创 建 了 一 个 多 类 别 分 类 器 : 











>>> from sklearn.multiclass import OneVsOneClassifier 

>>> ovo_clf = OneVsOneClassifier(SGDClassifier(random_ state=42)) 
>>> ovo_clf.fit(X train, y_train) 

>>> ovo_clf.predict([some_digit]) 

array([ 5.]) 

>>> len(ovo_clf.estimators_ ) 

45 





训练 RandomForestClassifier 同 样 简 单 : 





>>> forest_clf.fit(X train, y_train) 
>>> forest_cilf.predict([some_digit]) 
array([ 5,]) 





这 次 Scikit-Leam 不 必 运 行 OvA 或 者 OvO 了 ， 因 为 随机 森林 分 类 器 直 
接 就 可 以 将 实例 分 为 多 个 类 别 。 调 用 predict_proba〈) 可 以 获得 分 类 器 
将 每 个 实例 分 类 为 每 个 类 别 的 概率 列表 : 








>>> forest_clf,predict_proba([some_digit]) 
array([[ 90.1，0，，0. , 0.1, 0. , 0.8, 0. , 0. ,0. ，0. ]]) 





可 以 看 出 分 类 器 对 其 预测 相当 有 信心 : 数组 中 第 5 个 指数 0.8 意 味 着 
该 模型 估计 图 片 代表 数字 5 的 概率 为 80%。 它 也 认为 图 片 有 可 能 是 0 或 者 
3〔 均 为 10% 的 概率 ) 。 


这 时 ， 你 当然 想 要 评估 这 些 分 类 器 。 跟 之 前 一 样 ， 使 用 交叉 验证 。 
我 们 来 试 试 使 用 cross_val _score〈) 函数 评估 一 下 SGDClassifier 的 准确 
率 : 








>>> cross val score(sgd cilf, Xx train, y_train, cv=3, scoring="accuracy") 
array([ 0.84063187, 0.84899245, 0.86652998]) 





在 所 有 的 测试 折合 上 都 超过 了 84%。 如 果 是 一 个 纯 随机 分 类 器 ， 准 
确 率 大 概 是 10%， 所 以 这 个 结果 不 是 太 糟 ， 但 是 依然 有 提升 的 空间 。 例 
如 ， 将 输入 进行 简单 缩放 《〈 如 第 2 章 所 述 ) 可 以 将 准确 率 所 到 90% 以 
上 : 





>>> from sklearn.preprocessing import StandardScaler 

>>> scaler = StandardSscaler() 

>>> Xx_train_scaled = scaler.fit transform(X_train.astype(np.float64)) 

>>> cross_val score(sgd cilf, Xx _ train scaled, y_train, cv=3, scoring="accuracy") 
array([ 0.91011798, 0.90874544, 0.906636 ]) 








错误 分 析 


当然 ， 如 果 这 是 一 个 真正 的 项 目 ， 你 将 遵循 机 器 学 习 项 目 清 单 中 的 
步骤 〈 见 附录 B) : 探索 数据 准备 的 选项 ， 产 试 多 个 模型 ， 列 出 最 佳 桩 
型 并 用 GridSearchCV 对 其 :起 参数 进行 微调 ， 尽 可 能 目 动 化 ， 等 等 。 正 如 
你 在 之 前 的 章节 里 尝试 的 那些 。 在 这 里 ， 假 设 你 已 经 找到 了 一 个 有 潜力 
的 模型 ， 现 在 你 希望 找到 一 此 方法 对 其 进一步 改进 。 方法 之 一 就 是 分 析 


其 错误 类 型 。 


首先 ， 看 看 混 消 矩阵 。 就 像 之 前 做 的 ， 使 用 cross_val_predict () 也 
数 进 行 预 测 ， 然 后 调用 confusion_matrix() 函数 : 




















>>> y_train pred = cross val predict(sgd cilf, Xx train scaled, y_train, cv=3) 
>>> Conf mx = confusion matrix(y_train, y_train pred) 
>>> conf_mx 

array([[5725, 3, 24, 9, 10, 49, 50, 10, 39, 4], 

2, 6493, 43, 25, 7, 40, 5, 10, 109, 8], 

51, 41, 5321, 104, 89, 26, 87, 60, 166, 13], 
47, 46, 141, 5342, 1, 231, 40, 50, 141, 92], 
19, 29, 41, 10, 5366, 9, 56, 37, 86, 189], 
73, 45, 36, 193, 64, 4582, 111, 30, 193, 94], 
29, 34, 44, 2, 42, 85, 5627, 10, 45, 09], 

25, 24, 74, 32, 54, 12, 6, 5787, 15, 236], 

52, 161, 73, 156, 10, 163, 61, 25, 5027, 123], 
43, 35, 26, 92, 178, 28, 2, 223, 82, 5240]]) 





Le ee 











数字 有 点 多 ， 使 用 Matplotlib 的 matshow 〈) 函数 来 查看 混淆 矩阵 的 
图 像 表示 ， 通 常 更 加 方便 : 








plt.matshow(conf_mx, cmap=plt.cm.gray) 
plt.show() 








混 消 矩阵 看 起 来 很 不 错 ， 因 为 大 多 数 图 片 都 在 主 对 角 线 上 ， 这 说 明 
它们 被 正确 分 类 。 数 字 5 看 起 来 比 其 他 数字 稍稍 瞳 一 些 ， 这 可 能 意味 痢 
数据 集中 数字 5 的 图 片 较 少 ， 也 可 能 是 分 类 串 在 数字 5 上 的 执行 效果 不 如 
在 其 他 数字 上 好 。 实 际 上 ， 你 可 能 会 验证 这 两 者 都 属实 。 


证 我 们 把 焦点 放 在 错误 上 上。 首先， 你 需要 将 混 消 矩 阵 中 的 每 个 值 除 
以 相应 类 别 中 的 图 片 数量 ， 这 样 你 比较 的 就 是 错误 率 而 不 是 错误 的 绝对 
值 〈 后 者 对 图 片 数量 较 多 的 类 别 不 公平 ) : 

















row_sums = conf_mx.sum(axis=1, keepdims=True) 
norm_conf_mx = conf_mx / row_sums 





用 0 填充 对 角 线 ， 只 保留 错误 ， 重 新 绘制 结果 : 





np.fill diagonal(norm conf_mx, 0) 
plt.matshow(norm conf_mx, cmap=plt.cm.gray) 
plt.show() 








现在 可 以 清晰 地 看 到 分 类 器 产生 的 错误 种 类 了 。 记 住 ， 每 行 代表 实 
际 类 别 ， 而 每 列表 示 预 测 类 别 。 第 8 列 和 第 9 列 整体 看 起 来 非常 亮 ， 说 明 
有 许多 图 片 被 错误 地 分 类 为 数字 8 或 数字 9 了。 同样 ， 类 别 8 和 类 别 9 的 行 
看 起 来 也 偏 亮 ， 说 明 数 字 8 和 数字 9 经 常会 跟 其 他 数字 混淆。 相反 ， 一 些 
行 很 瞳 ， 比 如 行 1， 这 意味 着 大 多 数 数字 1 都 被 正确 地 分 类 (有 一 些 与 数 
字 8 弄 混 ， 但 仅 此 而 已 )。 注 意 ， 错 误 不 是 完全 对 称 的 ， 比 如 ， 数 字 5 被 
错误 分 类 为 数字 8 的 数量 比 数 字 8 被 错误 分 类 为 数字 5 的 数量 要 更 多 。 


分 析 混 请 矩阵 通常 可 以 帮助 你 深入 了 解 如 何 改 进 分 类 器 。 通 过 上 面 
那 张 图 来 看 ， 你 的 精力 可 以 花 在 改进 数字 8 和 数字 9 的 分 类 ， 以 及 修正 数 
字 3 和 数字 5 的 混淆 上 。 例 如 ， 可 以 试 着 收集 更 多 这 些 数字 的 训练 数据 。 
或 者 ， 也 可 以 开发 一 些 新 特征 来 改进 分 类 器 一 一 举 个 例子 ， 写 一 个 算法 
来 计算 闭环 的 数量 (例如 ， 数 字 8 有 两 个 ， 数 字 6 有 一 个 ， 数 字 5 没 
有 ) 。 再 或 者 ， 还 可 以 对 图 片 进行 预 处 理 〈 例 如 ， 使 用 Scikit-Image、 
Pillow 或 OpenCV) 让 某 些 模式 更 为 突出 ， 比 如 闭环 之 类 的 。 


分 析 单 个 的 错误 也 可 以 为 分 类 器 提供 洞察 : 它 在 做 什么 ? 它 为 什么 
< 但 这 通常 更 加 困难 和 耗 时 。 例 如 ， 我 们 来 看 看 数字 3 和 数字 5 的 例 




















cl a, cl b=3,5 
X aa = x train[(y_train == cl a) & (y_train pred == cl a)] 
X ab = x train[(y_train == cl a) & (y_train pred == cl_b)] 


xX ba = x train[(y_train == cl b) & (y_train_pred == cl a)] 
xX bb = x train[(y_train == cl b) & (y_train pred == cl_b)] 


plt.figure(figsize=(8,8)) 
plt.subplot(221); plot_ digits(X aa[:25], images_per_row=5) 
plt.subplot(222); plot_ digits(X ab[:25], images_per_row=5) 


plt.subplot(223); plot_digits(X ba[:25], images_per_row=5) 


plt.subplot(224); plot_ digits(X bb[:25], images_per_row=5) 
plt.show() 
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左 侧 的 两 个 5x5 和 矩阵 显示 了 被 分 类 为 数字 3 的 图 片 ， 右 侧 的 两 个 5x5 
乱 阵 显示 了 被 分 类 为 数字 5 的 图 片 。 分 类 器 弄 错 的 数字 【〈 即 左 下 方 和 厂 
上 方 的 矩阵 ) 里 ， 确 实 有 一 些 写 得 非常 精 糙 ， 即便 是 人 类 也 很 难 做 出 区 
分 〈 例 如 ， 第 8 行 第 1 列 的 数字 5 看 起 来 真 的 很 像 数 字 3) 。 然 而 ， 对 我 们 
来 说 ， 大 多 数 错 误 分 类 的 图 片 看 起 来 还 是 非常 明显 的 错误 ， 我 们 很 难 理 
解 分 类 器 为 什么 会 弄 错 。 出 原因 在 于 ， 我 们 使 用 的 简单 的 SGDClassifier 
ee 它 所 做 的 就 是 为 每 个 像素 分 配 一 个 各 个 类 别 的 权 

当 它 看 到 新 的 图 像 时 ， 将 加 权 后 的 像素 强度 汇总 ， 从 而 得 到 一 个 分 
we 类 。 而 数字 3 和 数字 5 只 在 一 部 分 像素 位 上 有 区 别 ， 所 以 分 类 器 
很 容易 将 其 弄 混 。 




















数字 3 和 数字 5 之 间 的 主要 区 别 是 在 于 连接 项 线 和 下 方 弧 线 的 中 间 那 
段 小 线条 的 位 置 。 如 果 你 写 的 数字 3 将 连接 点 略 往 左 移 ， 分 类 器 就 可 能 
将 其 分 类 为 数字 5， 反 之 亦 然 。 换 言 之 ， 这 个 分 类 器 对 图 像 移 位 和 旋转 
非常 敏感 。 因 此 ， 减 少数 字 3 和 数字 5 混淆 的 方法 之 一 ， 就 是 对 图 片 进行 
天 处 再， 确保 它们 位 于 中 心 位 置 并 且 没 有 旗 乱 这 也 同样 有 助 了 减少 

此 误 。 


[1 但 是 记 住 ， 我 们 的 大 脑 是 一 个 非常 神奇 的 模式 识别 系统 ， 在 信息 传 
达到 我 们 的 意识 之 前 ， 视 沉 系 统 会 对 其 进行 大 量 的 复杂 的 预 处 理 ， 所 以 
任何 看 起 来 很 简单 的 事情 并 不 意味 着 它 真 的 简单 。 























多 标签 分 类 


到 目前 为 上 上， 每 个 实例 都 只 会 被 分 在 一 个 类 别 里 。 而 在 茶 些 情况 
下 ， 你 希望 分 类 器 为 每 个 实例 产 出 多 个 类 别 。 例 如 ， 人 脸 识别 的 分 类 
器 : 如 果 在 一 张 照片 里 识别 出 多 个 人 怎么 办 ? 当然 ， 应 该 为 识别 出 来 的 
每 个 人 都 附 上 一 个 标签 。 假 设 分 类 需 经 过 训练 ， 已 经 可 以 识别 出 三 张 脸 
爱丽 丝 、 鲍 劲 和 人 查理， 那么 当 看 到 一 张 爱 丽 丝 和 查理 的 照片 时 ， 它 
应 该 输出 [1，0，1] (意思 是 “十 爱丽 经， 不 是 鲍 动 ， 是 查理 ”) 这 种 输出 
多 个 二 元 标签 的 分 类 系统 称 为 多 标签 分 类 系统 。 


了 为 了 阐释 清楚 ， 这 里 不 讨论 面部 识别 ， 让 我 们 来 看 一 个 更 为 简单 的 
列子 ; 

















from sklearn.neighbors import KNeighborsClassifier 


y_train large = (y_train >= 7) 
y_train odd = (y_train % 2 == 1) 
y_multilabel = np.c_[y_train large, y_train odd] 


knn_clf = KNeighborsClassifier() 
knn_cilf.fit(X_ train, y_multilabel) 





这 段 代 码 会 创建 一 个 y_multilabel 数 组 ， 其 中 包含 两 个 数字 图 片 的 目 
标 标签 : 第 一 个 表示 数字 是 否 是 大 数 07、8、9) ， 第 二 个 表示 是 否 大 
奇数 。 下 一 行 创 建 一 个 KNeighborsClassifier 实 例 〈 它 支持 多 标签 分 类 ， 
不 是 所 有 的 分 类 器 都 文 持 ) ， 然 后 使 用 多 个 目标 数组 对 和 它 进 行 训 练 。 现 
在 用 它 做 一 个 预测 ， 注 意 它 输出 的 两 个 标签 : 








>>> knn_clf.predict([some_digit]) 
array([[False, True]], dtype=bool) 





结果 是 正确 的 ! 数字 5 确实 不 大 (False〉， 为 奇数 (True) 。 


评估 多 标签 分 类 器 的 方法 很 多 ， 如 何 选择 正确 的 度量 指标 取决 于 你 
的 项 目 。 比 如 方法 之 一 是 测量 每 个 标签 的 Fi 分 数 〈 或 者 是 之 前 讨论 过 的 
任何 其 他 三 元 分 类 器 指标 )， 然 后 简单 地 平均 。 下 面 这 段 代 码 计算 所 有 
标签 的 平均 Fi 分 数 : 

















>>> y_train_knn_pred = cross_ val predict(knn _clf, x train, y_train, cv=3) 
>>> f1_score(y_train, y_train knn_pred, average="macro") 
0.96845540180280221 








这 里 假设 了 所 有 的 标签 都 同等 重要 ， 但 实际 可 能 不 是 这 样 。 特 别 
是 ， 如 果 训 练 的 照 记 里 爱丽 丝 比 鲍 艺 和 得 理 要 多 很 多 ， 你 可 能 想 给 区 分 
爱丽 丝 的 分 类 需 更 高 的 权重 。 一 个 简单 的 办 法 是 给 每 个 标签 设置 一 个 等 

只 需要 


于 其 自身 支持 的 权重 (也 就 是 具有 该 目标 标签 的 实例 的 数量 ) 。 只 需要 
在 上 面 的 代码 中 设置 average="weighted" 即 可 。 山 


[1 Scikit-Leam 还 提供 了 一 些 其 他 计算 平均 的 方法 ， 以 及 其 他 的 多 标签 
分 类 占 指 标 ， 相 关 详 细 信 息 请 参阅 文档 。 











多 输出 分 类 


我 们 即将 讨论 的 最 后 一 种 分 类 任务 叫 作 多 输出 -多 类 别 分 类 《或 简 
单 地 称 为 多 输出 分 类 ) 。 简 单 来 说 ， 它 是 多 标签 分 类 的 泛 化 ， 其 标签 也 
可 以 是 多 种 类 别 的 (比如 它 可 以 有 两 个 以 上 可 能 的 值 〉。 


为 了 说 明 这 一 点 ， 构 建 一 个 系统 去 除 图 片 中 的 噪声 。 给 它 输 入 一 张 
有 噪声 的 图 片 ， 它 将 (希望 ) 输出 一 张 和 干净 的 数字 图 片 ， 跟 其 他 MNIST 
图 片 一 样 ， 以 像素 强度 的 一 个 数组 作为 呈现 方式 。 请 注意 ， 这 个 分 类 器 
的 输出 是 多 个 标签 〈 一 个 像素 点 一 个 标签 ) ， 每 个 标签 可 以 有 多 个 值 
《像素 强 度 范 围 为 0 到 225) 。 所 以 这 是 个 多 输出 分 类 器 系统 的 例子 。 











狠 分 类 和 回归 之 间 的 界限 有 时 很 模糊 ， 比 如 这 个 例子 。 可 以 说 
预测 像素 强度 更 像 是 回归 任务 而 不 是 分 类 。 而 多 输出 系统 也 不 仅仅 限于 
签 和 值 标签 。 


还 先 从 创建 训练 集 和 测试 集 开 始 ， 使 用 NumPy 的 randint〈) 函数 为 
MNIST 图 片 的 像素 强度 增加 噪声 。 目 标 是 将 图 片 还 原 为 原始 图 片 : 








noise = rnd.randint(0, 100, (len(Xx train), 784)) 
noise = rnd.randint(0, 100, (len(Xx_ test), 784)) 
Xx_ train mod = X_train + noise 

Xx test mod = Xx_ test + noise 

y_train mod = X_train 

y_test mod = x test 








警 一 眼 测 试 集中 的 图 像 〈 没 错 ， 我 们 正在 宁 探 测试 数据 ， 你 现在 确 
实 应 该 皱眉 头 ) : 














左边 是 有 噪声 的 输入 岁 片 ， 右 边 是 干净 的 目标 图 片 。 现 在 通过 训练 
分 类 器 ， 清 洗 这 张 图 卢 : 











knn_cilf.fit(X train mod，y_train_mod ) 
clean digit = knn_cJf,predict([X_test_mod[some_index]]) 


二 站 
2 i 


看 起 来 离 目 标 够 接近 了 。 分 类 器 之 旅 到 此 结束 。 希 望 现 在 你 掌握 了 
如 何 为 分 类 任务 选择 好 的 指标 ， 如 何 选 择 适当 的 精度 /召回 紊 权衡 ， 如 
何 比较 多 个 分 类 器 ， 以 及 更 为 概括 地 说 ， 如 何 为 各 种 任务 构建 卓越 的 分 


类 系统 。 












练习 


1. 为 MNIST 数 据 集 构建 一 个 分 类 器 ， 并 在 测试 集 上 达成 超过 97% 的 
精度 。 提 示 : KNeighborsClassifier 对 这 个 任务 非常 有 效 ， 你 只 需要 找到 
合适 的 超 参 数值 即 可 〈 试 试 对 weights 和 n_neighbors 这 两 个 超 参 数 进 行 网 
格 搜索 ) 。 


2. 写 一 个 可 以 将 MNIST 图 片 向 任意 方向 (上 、 下 、 左 、 右 ) 移动 一 
个 像素 的 功能 。 山 然后 ， 对 训练 集中 的 每 张 图 片 ， 创 建 四 个 位 移 后 的 副 
本 每 个 方向 一 个 )， 添 加 到 训练 集 。 最后， 在 这 个 扩展 过 的 训练 集 上 
训练 模型 ， 衡 量 其 在 测试 集 上 的 精度 。 你 应 该 能 注意 到 ， 模 型 的 表现 其 
9 ! 这 种 人 工 扩 展 训练 集 的 技术 称 为 数据 增 广 或 训练 集 扩 











3.Kaggle (https:/www.kaggle.com/c/titanic) 上 非常 棒 的 起 点 : 处 理 
泰坦 尼克 〈Titanic) 数据 集 。 


4. 创 建 一 个 垃圾 邮件 分 类 器 (更 具 挑 战 性 的 练习 ): 


.从 Apache SpamAssassin 的 公共 数据 集 


Chttps:/spamassassin.apache.org/publiccorpus/) 中 下 载 垃圾 邮件 和 非 垃 
圾 邮件 。 


解压 数据 集 并 亢 悉 数据 格式 。 
-将 数据 集 分 为 训练 集 和 测试 集 。 


. 写 一 个 数据 准备 的 流水 线 将 每 封 邮 件 转换 为 特征 向 量 。 你 的 流水 
线 应 将 电子 邮件 转换 为 一 个 < 指示 出 所 有 可 能 的 词 存在 与 否 ” 的 〈 稀 玻 ) 
向 量 。 比 如 ， 如 果 所 有 的 邮件 都 只 包含 四 个 词 < 你 好 ”怎样 ”是 2 你 ”， 
那么 邮件 “你 好 ， 你 ， 你 好 ， 你 好 ， 你 ”会 被 转换 成 为 向 量 [1，0，0，1]] 
(意思 是 “你 好 存在,“ 怎样 "不 存在 ，“ 是 * 不 存在,，“ 你 * 存 在 ) ， 如 果 
你 希望 算 上 每 个 词 出 现 的 次 数 ， 那 么 这 个 向 量 就 是 [3，0，0，2]。 


-在 流水 线 上 添加 超 参数 ， 来 控制 是 否 剥 离 电 子 邮 件 标 题 ， 是 否 将 
每 封 邮件 转换 为 小 号 ， 是 否 删除 标点 符号 ， 是 否 将 “URLSs” 蔡 换 
成 *<URL”， 是 个 将 所 有 小 写 number 蔡 换 为 “NUMBER”， 甚 至 是 否 执行 词 


























二 提取“【〈 即 去 掉 单 词 后 弘 ， 有 可 用 的 Python 库 可 以 实现 该 操作 ) 。 
.最 后 ， 多 试 几 个 分 类 器 ， 看 看 是 否 能 创建 出 一 个 高 台 回 率 且 高 精 
度 的 垃圾 邮件 分 类 器 。 
以 上 练习 的 解决 方案 可 以 在 Jupyter 笔 记 本 上 获得 ， 链 接地 址 
为 : https://github.com/ageron/handson-ml。 
[可 以 使 用 scipyndimage.interpolation 模 块 中 的 Shift () 函数 。 例 如 ， 


shift (image，[2，1]，cval=0〉 束 是 将 图 片 同 下 移动 2 个 像素 并 问 右 移动 
1 个 像 系 。 





第 4 章 ”训练 模型 


到 目前 为 止 ， 我们 已 经 探讨 了 不 同 机 器 学 习 的 模型 ， 但 是 它们 各 上 自 
的 训练 算法 在 很 大 程度 上 还 是 一 个 黑 鞍 子 。 回 顾 前 几 间 里 的 部 分 案例 ， 
你 大 概 感 到 非常 惊讶 ， 在 对 系统 内 部 一 无 所 知 的 情况 下 ， 居 然 已 经 实现 
了 这 么 多 : 优化 了 一 个 回归 系统 ， 改 进 了 一 个 数字 图 片 分 类 器 ， 从 零 开 
始 构 建 了 一 个 垃圾 邮件 分 类 器 一 一 所 有 这 些 ， 你 都 不 知道 它们 实际 是 如 
何 工作 的 。 确 实 是 这 样 ， 在 许多 情况 下 ， 你 并 不 需要 了 解 实 施 细节 。 


但 是 ， 能 很 好 地 理解 系统 如 何 工作 也 是 非常 有 帮助 的 。 针 对 你 的 任 
务 ， 它 有 助 于 快速 定位 到 合适 的 模型 、 正 确 的 训练 算法 ， 以 及 一 套 适 当 
的 超 参 数 。 不 仅 如 此 ， 后 期 还 能 让 你 更 高 效 地 执行 错误 调试 和 错误 分 
析 。 最 后 还 要 强调 一 点 ， 本 章 探 讨 的 大 部 分 主题 对 于 理解 、 构 建 和 训练 
神经 网 络 〈 本 书 第 二 部 分 ) 是 至 关 重 要 的 。 


本 章 我 们 将 从 最 简单 的 模型 之 一 一 一 线性 回归 模型 ， 开 始 介绍 两 种 
非常 不 同 的 训练 模型 的 方法 : 


通过“ 闭 式 "方程 一 一 直接 计算 出 最 适合 训练 集 的 模型 参数 〈 也 就 
征 使 训练 集 上 的 成 本 函数 最 小 化 的 模型 参数 ) 。 


使 用 迭 代 优 化 的 方法 ， 即 梯度 下 降 〈GD ) ， 逐 渐 调 整 模型 参数 直 
至 训练 集 上 的 成 本 函数 调 至 最 低 ， 最 终 趋同 于 第 一 种 方法 计算 出 来 的 模 
型 参数 。 我 们 还 会 研究 几 个 梯度 下 降 的 变 体 ， 包 括 批 量 梯度 下 降 、 小 批 
量 梯度 下 降 以 及 随机 梯度 下 降 。 等 我 们 进入 到 第 二 部 分 神经 网 络 的 学 习 
时 ， 会 频繁 地 使 用 这 几 个 变 体 。 


接着 我 们 将 会 进入 多 项 式 回归 的 讨论 ， 这 是 一 个 更 为 复杂 的 模型 ， 
更 适合 非 线性 数据 集 。 由 于 该 模型 的 参数 比 线性 模型 更 多 ， 因 此 更 容易 
造成 对 训练 数据 过 度 拟 合 ， 我 们 将 使 用 学 习 曲 线 来 分 辩 这 种 情况 是 人 否 发 
生 。 然 后 ， 再 介绍 几 种 正则 化 技巧 ， 降 低 过 度 拟 合 训 练 数据 的 风险 。 


最 后 ， 我 们 将 学 习 两 种 经 常用 于 分 类 任务 的 模型 ，Logistic 回 归 和 
Softmax 回 归 。 























外、 本 章 将 会 出 现 不 少数 学 公式 ， 需 要 用 到 线性 代数 和 微 积分 的 -- 








些 基 本 概念 。 要 理解 这 些 方 程式 ， 你 需要 知道 什么 是 向 量 和 甜 阵 ， 如 何 
转 置 向 量 和 矩阵， 什么 是 点 积 ， 什 么 是 逆 沧 阵 ， 什 么 是 偏 导 数 。 如 果 你 
不 娄 悉 这 些 概念 ， 请 先 通过 在 线 补 充 材 料 中 的 Jupyter 笔 记 本 ， 进 行 线性 
代数 和 微 积 分 的 入 门 学 习 。 对 那些 真 的 极度 讨厌 数学 的 人 ， 你 还 是 需要 
但 是 可 以 跳 过 那些 数学 公式 ， 和 希望 文字 足以 让 你 了 解 大 多 


线性 回归 
在 第 1 章 中 ， 我 们 学 过 一 个 简单 的 生活 满意 度 的 回归 模型 ; 


life_satisfaction=0+1xGDP_per_capita。 


这 个 模型 就 是 输入 特征 GDP_per_capita 的 线性 函数 ，0 和 1 是 模型 的 


少 


更 为 概括 地 说 ， 线 性 模型 就 是 对 输入 特征 加 权 求 和 ， 再 加 上 一 个 我 
们 称 为 债 置 项 〈 也 称 为 截 距 项 ) 的 币 数 ， 以 此 进行 预测 ， 如 会 式 4-1 所 


让 \。 
公式 4-1: 线性 回归 模型 预测 


0 OX + Q,%, et OX 


.是 预测 值 
an 是 特征 的 数量 

Xi 是 第 i 个 特征 值 

.9 是 第 j 个 模型 参数 〈 包 括 偏 置 项 bo 以 及 特征 权重 9，62，.…，9u) 
这 可 以 用 更 为 简洁 的 向 量化 形式 表达 ， 如 公式 4-2 所 示 。 

公式 4-2: 线性 回归 模型 预测 (向 量化 ) 


7 =h,(X) =0°:*X 


-0 是 模型 的 参数 向 量 ， 包 括 偏 置 项 90 以 及 特征 权重 91 到 06; 




















-9 是 6 的 转 置 向 量 〈 为 行 向 量 ， 而 不 再 是 列 向 量 ) 


X 是 实例 的 特征 同 量 ， 包 括 从 xo 到 xn，x0o 了 永远 为 1 

:91T.x 是 9T 和 x 的 点 积 

:he 是 使 用 模型 参数 9 的 假设 函数 

我 们 该 怎样 训练 线性 回归 模型 呢 ? 回想 一 下 ， 训 练 模 型 就 是 设置 模 
型 参数 直到 模型 最 适应 训练 集 的 过 程 。 要 达到 这 个 目的 ， 我 们 首先 需要 
知道 怎么 衡量 模型 对 训练 数据 的 拟 合 程度 是 好 还 是 差 。 在 第 2 章 中 ， 我 
们 了 解 到 回归 模型 最 常见 的 性 能 指标 是 均 方 根 误差 (RMSE) (公式 2- 
1) 。 因 此 ， 在 训练 线性 回归 模型 时 ， 你 需要 找到 最 小 化 RMSE 的 6 值 。 
在 实践 中 ， 将 均 方 误差 (MSE) 最 小 化 比 最 小 化 RMSE 更 为 简单 ， 二 者 
效果 相同 (因为 使 函数 最 小 化 的 值 ， 同 样 也 使 其 平方 根 最 小 )。 山 


在 训练 集 X 上 ， 使 用 公式 4-3 计 算 线性 回归 的 MSE，he 为 假设 函数 。 
公式 4-3: 线性 回归 模型 的 MSE 成 本 函数 
| Mm 
Ea (2 
TD @ em 
MSE(X, h) =—) (0 :X -y") 
Hl sl 
这 些 符 号 大 多 数 在 第 2 章 中 提 到 过 唯一 的 区 别 是 h 换 成 了 he， 以 便 清 
楚 地 表明 模型 被 向 量 参 9 数 化 。 为 了 简化 符号 ， 我 们 将 MSE (X，he) 直 
接 写 作 MSE (09) 。 
标准 方程 
为 了 得 到 使 成 本 函数 最 小 的 9 值 ， 有 一 个 闭 式 解 方法 一 一 也 就 是 一 
个 直接 得 出 结果 的 数学 方程 ， 即 标准 方程 (公式 4-4) 。 书 


公式 4-4: 标准 方程 














八 mm 

0 =(X .X) .X .y 
.6 是 使 成 本 函数 最 小 的 6 值 。 

.是 包含 y GD 到 y cn) 的 目标 值 向 量 。 

我 们 生成 一 些 线性 数据 来 测试 这 个 公式 〈 见 图 4.1) : 





import numpy as np 


X= 2 * np.random.rand(100, 1) 
y=4+3* xX + np.random.randn(100, 1) 





现在 我 们 使 用 标准 方程 来 计算 09。 使 用 Numpy 的 线性 代数 模块 
(np.linalg〉 中 的 inv() 冰 数 来 对 矩阵 求 逆 ， 并 用 dot( ) 方法 计算 矩阵 
的 内 积 : 





xX b= np.c_ [np.ones((100, 1)), XxX] # add xo = 1 to each instance 
theta_best = np.linalg,.inv(X_b.T.dot(X _b)).dot(xX_b.T).dot(y) 














图 4-1: 随机 生成 的 线性 数据 集 


我 们 实际 用 来 生成 数据 的 函数 是 y 王 4+3xo+ 高 斯 噪声 。 来 看 看 公式 
的 结果 : 





>>> theta_best 
array([[ 4.21509616], 
[ 2.77011339]]) 





我 们 期 待 的 是 bo 王 4，61 三 3 得 到 的 是 6o 王 3.865，61 三 3.139。 非 常 接 
近 ， 噪 声 的 存在 使 其 不 可 能 完全 还 原 为 原本 的 函数 。 


现在 可 以 用 9 做 出 预测 : 





>>> X_new = np.array([[9]，[2]]) 





>>> X_newb = np.c_[np.ones((2，1))，X_new] # add x0 = 1 to each instance 
>>> y_predict = X_new _b.dot(theta best) 
>>> y_predict 
array([[ 4.21509616], 
[ 9.75532293]]) 





绘制 模型 的 预测 结果 〈 见 图 4-2》: 





plt.plot(X new, y_predict, "r-") 
plt.plot(X, y, "b.") 
plt.axis([0, 2, 0, 15]) 

plt. show() 





Scikit-Learn 的 等 效 代 码 如 下 所 示 : 乌 





0.0 0.5 1.0 1:3 2.0 
Xl 


图 4-2: 线性 回归 模型 预测 





>>> from sklearn.linear_ model import LinearRegression 
>>> lin_reg = LinearRegression() 
>>> lin_reg.fit(X, y) 





>>> lin_reg.intercept_, lin_reg.coef_ 
(array([ 4.21509616]), array([[ 2.77011339]])) 
>>> lin_reg.predict(X_new) 
array([[ 4.21509616], 

[ 9.75532293]]) 


计算 复杂 度 


标准 方程 求 逆 的 矩阵 XT:Xx， 是 一 个 nxn 和 矩阵 〈n 是 特征 数量 ) 。 对 
这 种 矩阵 求 逆 的 计算 复杂 度 通 常 为 O (n>4) 到 O (mB3) 之 间 ( 取 决 于 计 
算 实现 ) 。 换 句 话说， 如 果 将 特征 数量 翻 倍 ， 那 么 计算 时 间 将 乘 以 大 约 
2<24=5.3 倍 到 2 三 8 倍 之 间 。 





执导 征 数量 比较 大 《例如 100000》 时 ， 标 准 方程 的 计算 将 极其 组 


潮 


好 的 一 面 是 ， 相 对 于 训练 集中 的 实例 数量 (O (m〉 ) 来 说 ， 方 程 
是 线性 的 ， 所 以 能 够 有 效 地 处 理 大 量 的 训练 集 ， 只 要 内 存 足 够 。 


同样 ， 线 性 回归 模型 一 经 训练 (不论 是 标准 方程 还 是 其 他 算法 ) ， 
预测 就 非常 快速 :因为 计算 复 茶 度 相 对 于 想 要 预测 的 实例 数量 和 特征 数 
量 来 说 ， 都 是 线性 的 。 换 句 话说 ， 对 两 倍 的 实例 (或 者 是 两 倍 的 特征 
数 ) 进行 预测 ， 大 概 需 要 两 倍 的 时 间 。 


现在 ， 我们 再 看 几 个 截然 不 同 的 线性 回归 模型 的 训练 方法 ， 这 些 方 
法 更 适合 特征 数 或 者 训练 实例 数量 大 到 内 存 无 法 满足 要 求 的 场景 。 


[0 通 间 情况 下 ， 学 习 算 法 优化 的 函数 都 与 评估 最 终 模型 时 使 用 的 性 能 
指标 函数 不 同 。 这 可 能 是 因为 前 者 更 容易 计算 ， 也 可 能 是 因为 前 者 具有 
某 些 后 者 所 缺乏 的 差异 属性 ， 还 可 能 是 因为 我 们 想 在 训练 期 间 约 束 模 
型 ， 后 面 讨论 正则 化 时 将 会 看 到 。 
ee 此 证 明 过 程 不 在 本 书 范围 
之 内 。 

[3] 注意 ，Scikit-Learn 将 偏 置 项 (intercept_) 和 特征 权重 (coef_) 分 离 
Ts 








梯度 下 降 


梯度 下 降 是 一 种 非常 通用 的 优化 算法 ， 能 够 为 大 范围 的 问题 找到 了 最 
I 梯度 下 降 的 中 心思 想 就 是 迭代 地 调整 参数 从 而 使 成 本 函数 最 小 





假设 你 迷失 在 山上 的 浓 筋 之 中 ， 你 能 感觉 到 的 只 
度 。 快 速 到 达 山 脚 的 一 个 策 路 就 是 沿 着 最 计 的 方向 下 和， 这 就 是 梯度 
降 的 做 法 : 通过 测量 参数 癌 量 6 相关 的 误 兰 函数 的 局 部 梯度 ， 并 不 洛 沾 
着 降低 梯度 的 方向 调整 ， 直 到 梯度 降 为 0， 到 达 最 小 值 ! 


具体 来 说 ， 首 先 使 用 一 个 随机 的 6 值 〈 这 被 称 为 随机 初始 化 ) ， 然 
后 逐步 改进 ， 每 次 踏 出 一 步 ， 每 一 步 部 痊 试 降低 一 点 成 本 函数 0 
MSE) ， 和 直到 算法 收敛 出 一 个 最 小 值 〈 参 见 图 4-3) 。 








随机 初始 值 


>= 





图 4-3: 梯度 下 降 








梯度 下 降 中 一 个 重要 参数 是 每 一 步 的 步 长 ， 这 取决 于 超 参 数学 习 
率 。 如 果 学 习 率 太 低 ， 算 法 需要 经 过 大 量 迭 代 才 能 收敛 ， 这 将 耗费 很 长 
时 间 “〈 人 参见 图 4-4) 。 

反 过 来 说 ， 如 果 学 习 率 太 高 ， 那 你 可 能 会 越过 山谷 直接 到 达 山 的 另 
一 边 ， 甚 至 有 可 能 比 之 前 的 起 点 还 要 高 。 这 会 导致 算法 发 散 ， 值 越 来 越 
大 ， 最 后 无 法 找到 好 的 解决 方案 (参见 图 4-5) 。 





及 本 








图 4-4: 学 习 率 太 低 

















图 4-5: 学 习 率 太 高 


最 后 ， 并 不 是 所 有 的 成 本 函数 看 起 来 都 像 一 个 漂亮 的 碗 。 有 的 可 能 
看 独 像 洞 、 像 山脉 、 像 高 原 或 者 是 各 种 不 规则 的 地 形 ， 导 致 很 难 收 敛 到 
最 小 值 。 图 4-6 显 示 了 标 度 下 降 的 两 个 主要 挑战 ， 如 果 随 机 初始 化 ， 算 
法 从 左 侧 起 步 ， 那 么 会 收敛 到 一 个 局 部 最 小 值 ， 而 不 是 全 局 最 小 值 。 如 
果 算 法 从 右 侧 起 步 ， 那 么 需要 经 过 很 长 时 间 才 能 越过 整 片 高 原 ， 如 果 你 
停 下 得 太 早 ， 将 永远 达 不 到 全 局 最 小 值 。 


笠 好 ， 线 性 回归 模型 的 MSE 成 本 函数 恰好 是 个 凸 函 数 ， 这 意味 者 连 
接 曲 线 上 任意 两 个 点 的 线段 永远 不 会 跟 曲 线 相交 。 也 就 是 说 不 存在 局 部 
最 小 ， 只 有 一 个 全 局 最 小 值 。 它 同时 也 是 一 个 连续 函数 ， 所 以 斜率 不 会 
产生 陡峭 的 变化 。 岂 这 两 件 事 保证 的 结论 是 ， 即便 是 乱 走 ， 梯 度 下 降 都 
可 以 趋 近 到 全 局 最 小 值 〈《 只 要 等 待 时 间 足 够 长 ， 学 习 率 也 不 是 太 高 ) 。 





























局 部 最 小 值 ”全 局 最 小 值 


图 4-6: 梯度 下 降 陷 阱 


成 本 函数 虽然 是 碗 状 的 ， 但 如 果 不 同 特征 的 矿 寸 普 别 巨大 ， 那 它 可 
能 是 一 个 非 营 细 长 的 克 。 如 图 4-7 所 示 的 度 下 降 ， 左 边 的 训练 集 上 特 
征 1 和 特征 2 具有 相同 的 数值 规模 ， 而 右边 的 训练 集 上 ， 特 征 1 的 值 则 比 
特征 2 要 小 得 多 。 注 : 因为 特征 1 的 值 较 小 ， 所 以 01 需 要 更 大 的 变化 来 
影响 成 本 函数 ， 这 束 是 为 什么 碗 形 会 沿 看 0 轴 拉 长 。) 














图 4-7: 特征 值 缩 放 和 特征 值 无 缩放 的 梯度 下 降 


正如 你 所 见 ， 左 图 的 梯度 下 降 算 法 直接 走向 最 小 值 ， 可 以 快速 到 
达 。 而 在 右 图 中 ， 先 是 沿 着 与 全 局 最 小 值 方 铅 近乎 垂直 的 方向 前 进 ， 接 
下 来 是 一 段 几 乎 平坦 的 长 长 的 山谷 。 最 终 还 是 会 抵达 最 小 值 ， 但 古 这 需 
要 花费 大 量 的 时 间 。 














热 | 占用 樟 度 下 降 时 ， 需要 保证 所 有 特征 值 的 大 小 比例 都 差不多 
(比如 使 用 Scikit-Learn 的 StandardScaler 类 ) ， 否 则 收敛 的 时 间 会 长 很 
多 。 


这 张 图 也 说 明 ， 训 练 模 型 也 就 是 搜寻 使 成 本 函数 (在 训练 集 上 )〉 最 
小 化 的 参数 组 合 。 这 是 模型 参数 空间 层面 上 的 搜索 : 模型 的 参数 越 多 ， 
这 个 空间 的 维度 就 越 多 ， 搜 索 束 越 难 。 同 样 是 在 干草 堆 里 寻找 一 根 针 ， 
在 一 个 三 百 维 的 空间 里 就 比 在 一 个 三 维 空间 里 要 理 手 得 多 。 壹 运 的 是 ， 
线性 回归 模型 的 成 本 函数 是 是 函数 ， 针 束 能 在 碗 的 。 


批量 梯度 下 降 


要 实现 梯度 下 降 ， 你 需要 计算 每 个 模型 关于 参数 bj 的 成 本 函数 的 樟 
度 。 换 言 之 ， 你 需要 计算 的 是 如 果 改变 9 ， 成 本 函数 会 改变 多 少 。 这 被 


称 为 俩 导数 。 这 就 好 比 是 在 问 “如 果 我 面向 东 ， 我 脚下 的 坡度 斜率 是 多 
少 ? ”然后 面向 北 问 同样 的 问题 (如 果 你 想象 超过 三 个 维度 的 宇 害 ， 对 

















J Se 公式 4-5 计 算 了 关于 参数 0 的 成 本 函数 的 偏 导 


wa ee 


公式 4-5: 成 本 函数 的 偏 导 数 


0 er 0 0 
MSE() -i x yx 


/ 


如 果 不 想 单独 计算 这 些 梯度 ， 可 以 使 用 公式 4-6 对 其 进行 一 次 性 计 
算 。 梯 度 向 量 ， 记 作 YeMSE(40)， 包 含 所 有 成 本 函数 〈 每 个 模型 参数 一 
个 ) 的 偏 导数 。 


公式 4-6: 成 本 函数 的 梯度 向量 
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信人 请 注意 ， 公 式 4.6 在 计算 棋 度 下 降 的 每 _ 步 时 ， 都 是 基于 完 部 

的 训练 集 X 的 。 这 就 是 为 什么 该 算法 会 被 称 为 批量 梯度 下 降 : 每 一 步 都 
使 用 整 批 训练 数据 。 因 此 ， 面 对 非常 庞大 的 训练 集 时 ， 算 法 会 变 得 极 慢 
〈 不 过 我 们 即将 看 到 快 得 多 的 梯度 下 降 算 法 ) 。 但 是 ， 梯 度 下 降 算 法 随 
特征 数量 扩展 的 表现 比较 好 : 如 果 要 训练 的 线性 模型 拥有 几 十 万 个 特 

征 ， 使 用 梯度 下 降 比 标准 方程 要 快 得 多 。 


一 旦 有 了 梯度 向 量 ， 哪 个 点 向 上 ， 就 朝 反方 向 下 坡 。 也 就 是 从 9 中 
减 去 YoMSE(40)。 这 时 学 习 率 n 就 发 挥 作用 了 : 巴 用 梯度 向 量 乘 以 n 确 定 
下 坡 步 长 的 大 小 〈 公 式 4-7) 。 


公式 4-7: 梯度 下 降 步 长 


Onext ep)=g—yp YM SE(O) 


我 们 来 看 看 这 个 算法 的 快速 实现 : 





eta = 0.1 # learning rate 
n_iterations = 1000 
m = 100 


theta = np.random.randn(2,1) # random initialization 
for iteration in range(n_iterations): 


gradients = 2/m * Xx_b.T.dot(X _b.dot(theta) - y) 
theta = theta - eta * gradients 





也 不 是 太 难 ! 看 看 产生 的 结果 theta: 








>>> theta 
array([[ 4.21509616], 
[ 2.77011339]]) 





嘿 ， 这 不 正 是 标准 方程 的 发 现 么 ! 梯度 下 降 表现 完美 。 如 果 使 用 了 
其 他 的 学 习 率 eta 呢 ? 图 4-8 展 现 了 分 别 使 用 三 种 不 同 的 学 习 率 时 ， 梯 度 
下 降 的 前 十 步 《〈 虚 线 表 示 起 点 ) 。 





n=0.02 站 = n=0.5 











图 4-8: 不 同学 习 率 的 梯度 下 降 


左 图 的 学 习 率 太 低 : 算法 最 终 还 是 能 找到 解决 方法 ， 就 是 需要 太 长 
时 间 。 中 间 的 学 习 率 看 起 来 非常 棒 : 几 次 从 代 就 收敛 出 了 最 终 解 。 而 右 
边 的 学 习 率 太 高 : 算法 发 散 ， 直 接 路 过 了 数据 区 域 ， 并 且 每 一 步 都 离 实 
际 解决 方案 越 来 越 远 。 


要 找到 合适 的 学 习 率 ， 可 以 使 用 网 格 搜索 〈 见 第 2 草 ) 。 但 是 你 可 
能 过 要 限制 迁 代 次 数 ， 这 样 网 格 搜 索 可 以 淘 决 挥 那些 收 售 耗 时 太 长 的 各 
型， 








你 可 能 会 问 ， 要 怎么 限制 迭代 次 数 呢 ?如 果 设 置 太 低 ， 算 法 可 能 在 
离 最 优 解 还 很 远 时 束 停 了 ; 但 是 如 宋 设 置 得 太 高 ， 模 型 达到 最 优 解 后 ， 
继续 迭代 参数 不 再 变化 ， 又 会 浪费 时 间 。 一 个 简单 的 办 法 是 ， 在 开始 时 
设置 一 个 非常 大 的 达 代 次 数 ， 但 是 当 梯 度 癌 量 的 值 变 得 很 微小 时 中 断 算 
法 一 一 也 就 是 当 它 的 范 数 变 得 低 于 〈 称 为 容 差 ) 时 ， 因 为 这 时 梯度 下 降 
己 经 〈 几 乎 ) 到 达 了 最 小 值 。 


收敛 率 





成 本 函数 为 凸 函数 ， 并 且 和 鲜 率 没有 陡 虹 的 变化 时 (如 MSE 成 本 函 
数 ) ， 通 过 批量 梯度 下 降 可 以 看 出 一 个 固定 的 学 习 率 有 一 个 收敛 率 ， 为 





] 
0 、 B ss ke \ 工 、 A 人 AP 、 人 
Er | 换 名 话说， 如果 将 容 差 s 缩 小 为 原来 的 10 〈 以 得 到 更 
精确 的 解 ) ， 算 法 将 不 得 不 运行 10 倍 的 迭代 次 数 。 


随机 梯度 下 降 


批量 梯度 下 降 的 主要 问题 是 它 要 用 整个 训练 集 来 计算 每 一 步 的 梯 
度 ， 所 以 训练 集 很 大 时 ， 算 法 会 特别 慢 。 与 之 相反 的 极端 是 随机 梯度 下 
降 ， 每 一 步 在 训练 集中 随机 选择 一 个 实例 ， 并 且 仅 基于 该 单个 实例 来 计 
算 梯 度 。 显 然 ， 这 让 算法 变 得 快 多 了 ， 因 为 每 个 迭代 都 只 需要 操作 少量 
的 数据 。 它 也 可 以 被 用 来 训练 海量 的 数据 集 ， 因 为 每 次 达 代 只 需要 在 内 
存 中 运行 一 个 实例 即 可 〈SGD 可 以 作为 核 外 算法 实现 印 ) 。 


另 一 方面 ， 由 于 算法 的 随机 性 质 ， 它 比 批量 梯度 下 降 要 不 规则 得 
多 。 成 本 函数 将 不 再 是 绥 绥 降低 直到 抵达 最 小 值 ， 而 是 不 断 上 上 下 下 ， 
但 是 从 整体 来 看 ， 还 是 在 慢 慢 下 降 。 随 着 时 间 推 移 ， 最 终 会 非常 接近 最 
小 值 ， 但 是 即使 它 到 达 了 最 小 值 ， 依 旧 还 会 持续 反弹 ， 永 远 不 会 停止 
0 。 所 以 算法 停 下 来 的 参数 值 肯定 是 足够 好 的 ， 但 不 是 最 优 








内 
@ z 
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图 4-9: 随机 梯度 下 降 


当成 本 函数 非常 不 规则 时 ( 见 图 4-6， ， 随 机 梯度 下 降 其 实 可 以 帮 
0 


因此 ， 随 机 性 的 好 处 在 于 可 以 逃离 局 部 最 优 ， 但 缺点 是 永远 定位 不 
出 最 小 值 。 要 解决 这 个 困境 ， 有 一 个 办 法 是 逐步 降低 学 习 率 。 开 始 的 步 
长 比较 大 《这 有 助 于 快速 进展 和 逃离 局 部 最 小 值 ) ， 然 后 越 来 越 小 ， 让 
算法 尽量 靠近 全 局 最 小 值 。 这 个 过 程 叫 作 模拟 退火 ， 因 为 它 类 似 于 褒 金 
时 熔化 的 金属 慢 慢 冷 却 的 退火 过 程 。 确 定 每 个 迭代 学 习 率 的 函数 叫 作 学 
习 计 划 。 如 果 学 习 率 降 得 太 快 ， 可 能 会 陷入 局 部 最 小 值 ， 甚 至 是 停留 在 
走 问 最 小 值 的 半途 中 。 如 末 学 习 率 降 得 太 慢 ， 你 需要 太 长 时 间 才 能 跳 到 
瑟 个 多 最 小 值 附 近 ， 如 果 提 早 结束 训练 ， 可 能 只 得 到 一 个 次 优 的 解决 万 


不 




















下 面 这 段 代码 使 用 了 一 个 简单 的 学 习 计划 实现 随机 梯度 下 降 : 





n_epochs = 50 
to, t1 = 5, 50 # learning Schedule hyperparameters 


def learning_schedule(t): 
return to / (t + t1) 


theta = np.random.randn(2,1) # random initialization 


for epoch in range(n_epochs): 
for i in range(m): 

random_index = np.random.randint(m) 
xi = Xx_b[random index:random _ index+1] 
yi = y[random index:random index+1] 
gradients = 2 * xi.T.dot(xi.dot(theta) - yi) 
eta = learning_schedule(epoch * m + i) 
theta = theta - eta * gradients 





控 照 惯例 ， 我 们 用 m 来 表示 达 代 次 数 ， 每 一 次 达 代 称 为 一 轮 。 前 面 
的 批量 梯度 下 降 需要 在 整个 训练 集 上 迭代 1000 次 ， 而 这 段 代码 只 欠 代 了 
50 次 就 得 到 了 一 个 相当 不 错 的 解 : 











>>> theta 
array([[ 4.21076011], 
[ 2.74856079]]) 





图 4-10 显 示 了 训练 过 程 的 前 10 步 〈 注 意 不 规则 的 步子 ) 。 


因为 实例 是 随机 挑选 ， 所 以 在 同一 轮 里 某 些 实例 可 能 被 挑选 多 次 ， 
而 有 些 实例 则 完全 没 被 选 到 。 如 宁 你 希望 每 一 轮 算法 都 能 过 有 历 每 个 实 
例 ， 有 一 种 办 法 是 将 训练 集 洗 牌 打 乱 ， 然 后 一 个 接 一 个 的 使 用 实例 ， 用 
完 再 重新 洗 牌 ， 以 此 继续 。 不 过 这 种 方法 通常 收敛 得 更 慢 。 


在 Scikit-Learmn 里 ， 用 SGD 执 行 线性 回归 可 以 使 用 SGDRegressor 类 ， 
其 默认 优化 的 成 本 函数 是 平方 误 甜 。 下 面 这 段 代 码 从 学 习 率 0.1 开 始 
Ceta0=0.1) ， 使 用 默认 的 学 习 计 划 〈 跟 前 面 的 学 习 计划 不 同 ) 运行 了 
50 轮 ， 而 且 没 有 使 用 任何 正则 化 (penalty=None， 后 面 即 将 介绍 更 多 与 
此 相关 的 细节 ) : 




















图 4-10: 随机 梯度 下 降 的 前 10 步 





from sklearn.linear_model import SGDRegressor 
sgd_reg = SGDRegressor(n_iter=50, penalty=None, eta0=0.1) 
sgd_reg.fit(X, y.ravel()) 





你 再 次 得 到 了 一 个 跟 标准 方程 的 解 非常 相近 的 解决 方案 : 





>>> sgd_reg.intercept_, sgd_reg.coef_ 
(array([ 4.18380366]), array([ 2.74205299])) 





小 批量 梯度 下 降 


我 们 要 了 解 的 最 后 一 个 梯度 下 降 算 法 叫 作 小 批量 梯度 下 降 。 一 旦 理 
解 了 批量 梯度 下 降 和 随机 梯度 下 降 ， 这 个 算法 就 非常 容易 理解 了 : 每 一 
步 的 梯度 计算 ， 既 不 是 基于 整个 训练 集 〈 如 批量 梯度 下 降 ) 也 不 是 基于 





单个 实例 《如 随机 梯度 下 降 ) ， 而 是 基于 一 小 部 分 随机 的 实例 集 也 就 是 
小 批量 。 相 比 随机 梯度 下 降 ， 小 批量 梯度 下 降 的 主要 优势 在 于 可 以 从 和 矩 
Hi 
时 。 


这 个 算法 在 参数 空间 层面 的 前 进 过 程 也 不 像 SGD 那 样 不 稳定 ， 特 别 
是 批量 较 大 时 。 所 以 小 批量 梯度 下 降 最 终 会 比 SGD 更 接近 最 小 值 一 些 。 
但 是 另 一 方面 ， 它 可 能 更 难 从 局 部 最 小 值 中 逃脱 〈 不 是 我 们 前 面 看 到 的 
线性 回归 问题 ， 而 是 对 于 那些 深 受 局 部 最 小 值 陷阱 困扰 的 问题 )》。 图 4- 
11 显 示 了 三 种 梯度 下 降 算 法 在 训练 过 程 中 参数 空间 里 的 行进 路 线 。 它 们 
最 终 部 汇聚 在 最 小 值 附近 ， 批 量 梯 度 下 降 最 终 集 在 了 最 小 值 上 ， 而 随机 
梯度 下 降 和 小 批量 梯度 下 降 还 在 继续 游 走 。 但 是 ， 别 筷 了 批量 梯度 可 是 
人 蓄 费 了 大 量 时 间 来 计算 每 一 步 的 ， 如 果 用 好 了 学 习 计 划 ， 随 机 梯度 下 降 
和 小 批量 梯度 下 降 也 同样 能 到 达 最 小 值 。 














和 随机 梯度 下 降 
一 小 批量 梯度 下 降 
06 批量 梯度 下 降 
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图 4-11: 梯度 下 降 的 参数 路 径 


最 后 ， 我 们 来 比较 一 下 到 目前 为 止 所 讨论 过 的 线性 回归 算法 同 (m 
是 训练 实例 的 数量 ，n 是 特征 数量 ) ， 见 表 4-1。 


表 4-1: 线性 回归 算法 比较 


必 很 大 是 否 支 持 核 外 很 大 超 参数 是 否 需 要 编 放 ”Scikit-Learn 





标准 方程 快 至 慢 0 下 LinearReeression 
批量 梯度 下 降 “ 慢 。 舍 快 2 n/a 

随机 梯度 下 降 快 是 快 >2 去 SGDRegressor 
小 批量 梯度 下 降 快 ”是 快 22 是 na 





和 ii 弥 后 的 模型 几乎 无 闪 别 所 有 这 些 算法 最 后 出 来 的 模型 都 非 
常 相似 ， 并 且 以 完全 相同 的 方式 做 出 预测 。 


[1 从 技术 上 讲 ， 其 导数 满足 利 普 希 次 连续 (Lipschitz Continuous) 。 

[2] Eta (n) 是 第 7 个 希腊 字母 。 

[3] 见 第 1 章 中 对 核 外 算法 的 讨论 。 

[4] 标准 方程 仅 能 用 于 线性 回归 ， 但 是 梯度 下 降 算 法 还 可 以 用 于 训练 许 
多 其 他 模型 ， 后 面 我 们 将 会 看 到 。 


多 项 式 回 归 


如 采 数 据 比 简单 的 二 线 更 为 复 林 ， 该 怎么 办 ? 令 人 意 想不到 的 是 ， 
其 实 你 也 可 以 用 线性 模型 来 拟 合 非 线性 数据 。 一 个 简单 的 方法 就 是 将 每 
个 特征 的 贤 次 方 添加 为 一 个 新 特征 ， 然 后 在 这 个 拓展 过 的 特征 集 上 训练 
线性 模型 。 这 种 方法 被 称 为 多 项 式 回归 。 


我 们 看 下 面 这 个 例子 ， 首 先 ， 基 于 简单 的 二 次 方程 ( 注 : 二 次 方程 


的 形式 为 y=ax*+bx+c〉 制造 一 些 非 线 性 数据 (添加 随机 噪声 ， 见 图 4- 
12) : 











100 
6 * 
0.5 


np.random.rand(m, 1) - 3 
* X**2 + X+2 + np.random.randn(m, 1) 











图 4-12: 生成 的 非 线 性 带 噪声 数据 集 


显然 ， 直 线 永 远 不 可 能 拟 合 这 个 数据 。 所 以 我 们 使 用 Scikit-Learn 的 
PolynomialFeatures 类 来 对 训练 数据 进行 转换 ， 将 每 个 特征 的 平方 (二 次 
多 项 式 ) 作为 新 特征 加 入 训练 集 ( 这 个 例子 中 只 有 一 个 特征 〉: 





>>> from sklearn.preprocessing import PolynomialFeatures 

>>> poly_features = PolynomialFeatures(degree=2, include bias=False) 
>>> X_poly = poly_features.fit_transform(X) 

>>> X[0] 

array([-0.75275929]) 

>>> X_poly[9] 

array([-0.75275929, 0.56664654]) 





X_poly 现 在 包含 原本 的 特征 X 和 该 特征 的 平方 。 现 在 对 这 个 扩展 后 
的 训练 集 匹 配 一 个 LinearRegression 模 型 〈 见 图 4-13) : 





>>> lin_reg = LinearRegression() 

>>> lin_reg.fit(X_poly, y) 

>>> lin_reg.intercept_, lin_reg.coef_ 

(array([ 1.78134581]), array([[ 0.93366893, 0.56456263]])) 





还 不 错 ! 模型 预 估 2》=0.56X1+0.93x1+1.78， 而 实际 上 原本 的 函数 是 
y=0.5*X1+1.0x1+2.0+ 高 斯 噪声 。 


注意 ， 当 存在 多 个 特征 时 ， 多 项 式 回 归 能 够 发 现 特 征 和 特征 之 间 的 
关系 〈 纯 线性 回归 模型 做 不 到 这 一 点 ) 。 这 是 因为 PolynomialFeatures 会 
在 给 定 的 多 项 式 阶 数 下 ， 添 加 所 有 特征 组 合 。 例 如 ， 有 两 个 特征 a 和 bb， 
阶 数 degree=3， 了 PolynomialFeatures 不 只 会 添加 特征 a*、a3、b“< 和 b3， 还 会 
添加 组 合 ab、a2b 以 及 ab”。 











图 4-13: 多 项 式 回 归 模 型 预测 





res (degree=d) 可 以 将 一 个 包含 n 个 特征 的 数组 
ntd 

转换 为 包含 41n1 个 特征 的 数组 ， 其 中 n! 是 n 的 阶乘 ， 等 于 1x2x3x..… 

xn。 要 小 心 特 征 组 合 的 数量 爆炸 。 


学 习 曲 线 


高 阶 多 项 式 回归 对 训练 数据 的 拟 合 ， 很 可 能 会 比 简单 线性 回归 要 
好 。 例 如 ， 图 4-14 使 用 了 一 个 300 阶 多 项 式 模型 来 处 理 训练 数据 ， 并 将 
结果 与 一 个 纯 线性 模型 和 一 个 二 次 模型 (二 阶 多 项 式 ) 进行 对 比 。 注 意 
看 这 个 300 阶 模型 是 如 何 波动 以 使 其 尽 可 能 贴近 训练 实例 的 。 


当然 ， 这 个 高 阶 多 项 式 回 归 模 型 严重 地 过 撒 拟 合 了 训练 数据 ， 而 线 
性 模型 则 是 拟 合 不 足 。 这 个 案例 中 泛 化 结果 最 好 的 是 二 次 模型 。 这 很 合 
理 ， 因 为 数据 本 里 是 用 二 次 模型 生成 的 。 但 是 一 般 来 说 ， 你 不 会 知道 生 
成 数据 的 函数 是 什么 ， 那 么 该 如 何 确定 模型 的 复杂 程度 呢 ? 怎么 才能 判 
断 模 型 是 过 度 拟 合 还 是 拟 合 不 足 呢 ? 





在 第 2 章 中 ， 我 们 使 用 了 交叉 验证 来 评估 模型 的 泛 化 性 能 。 如 果 模 
型 在 训练 集 上 表现 良好 ， 但 是 交叉 验证 的 泛 化 表现 非常 糟糕 ， 那 么 模型 
就 是 过 度 拟 合 。 如 果 在 二 者 上 的 表现 都 不 佳 ， 那 就 是 拟 合 不 足 。 这 是 判 
断 模 型 太 简 单 还 是 太 复 杂 的 一 种 方法 。 





















































图 4-14: 高 阶 多 项 式 回 归 


还 有 一 种 方法 是 观察 学 习 曲 线 : 这 个 曲线 绘制 的 是 模型 在 训练 集 和 
验证 集 上 ， 关 于 “训练 集 大 小 ”的 性 能 函数 。 要 生成 这 个 曲线 ， 只 需要 在 
不 同 大 小 的 训练 子 集 上 多 次 训练 模型 即 可 。 下 面 这 段 代码 ， 在 给 定 训练 
集 下 定义 了 一 个 函数 ， 绘 制 模型 的 学 习 曲 线 : 





from sklearn.metrics import mean_squared error 
from sklearn.model selection import train test_ split 


def plot_learning curves(model, xX, y): 
Xx_ train, XxX val, y_train, y_ val = train test_ split(X, y, test_ size=0.2) 
train_errors, val errors = [], [] 
for m in range(1, len(Xx_train)): 
model.fit(X train[:m], y_train[:m]) 
y_train_predict = model.predict(Xx_ train[:m]) 
y_val predict = model.predict(Xx val) 
train_errors.append(mean_squared error(y_train predict, y_train[:m])) 
val_errors.append(mean_squared error(y_val predict, y_val)) 
plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train") 
plt.plot(np.sqrt(val errors), "b-", linewidth=3, label="val") 


看 看 纯 线性 回归 模型 (一 条 直线 ) 的 学 习 曲 线 (如 图 4-15 所 示 〉: 





lin_reg = LinearRegression() 
plot_learning_curves(lin_reg, XxX, y) 


这 里 值得 解释 一 二 ， 首 先 ， 我 们 来 看 训练 数据 上 的 性 能 : 当 训 练 集 
中 只 包括 一 两 个 实例 时 ， 模 型 可 以 完美 拟 合 ， 这 是 为 什么 曲线 是 从 0 开 
始 的 。 但 是 ， 随 着 新 的 实例 被 添加 进 训 练 集中 ， 模 型 不 再 能 完美 拟 合 训 
练 数 据 了 ， 因 为 数据 有 噪声， 并 且 根 本 就 不 是 线性 的 。 所 以 训练 集 的 误 
差 一 路 上 升 ， 直 到 抵达 一 个 高 地 ， 从 这 一 点 开始 ， 添 加 新 实例 到 训练 集 
中 不 再 使 平均 误差 上 升 或 下 降 。 然 后 我 们 再 来 看 看 验证 集 的 性 能 表现 。 
当 训练 集 实例 非 常 少时 ， 模 型 不 能 很 好 地 泛 化 ， 这 是 为 什么 验证 集 误 兰 
的 值 一 开始 非常 大 ， 随 着 模型 经 历 更 多 的 训练 数据 ， 它 开始 学 习 ， 因 此 
验证 集 误差 慢 慢 下 降 。 但 是 仪 徘 一 条 直线 终归 不 能 很 好 地 为 数据 建 模 ， 
所 以 误差 也 停留 在 了 一 个 高 值 ， 跟 男 一 条 曲线 十 分 接近 。 
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图 4-15: 学 习 曲 线 


这 条 学 习 曲 线 是 典型 的 模型 拟 合 不 足 。 两 条 曲线 均 到 达 高 地 ， 非 党 
接近 ， 而 且 相 当 电 。 





舍 如 果 你 的 模型 对 训练 数 据 拟 合 不 中 添加 更 多 训练 示例 也 于 事 
无 补 。 你 需要 使 用 更 复杂 的 模型 或 者 找到 更 好 的 特征 。 


现在 我 们 再 来 看 看 在 同样 的 数据 集 上 ， 一 个 10 阶 多 项 式 模型 的 学 习 
曲线 〈 见 图 4-16) : 





from sklearn.pipeline import Pipeline 


polynomial_regression = Pipeline(( 
("poly_features", PolynomialFeatures(degree=10, include bias=False)), 
("sgd_reg", LinearRegression()), 


)) 


plot_learning_curves(polynomial _ regression, XxX, y) 








这 条 学 习 曲 线 看 起 来 跟前 一 条 差不多 ， 但 是 有 两 个 非常 重大 的 区 
别 : 


训练 数据 的 误差 远 低 于 线性 回归 模型 。 
两 条 曲线 之 间 有 一 定 差 距 。 这 意味 大 该 模型 在 训练 数据 上 的 表现 


比 验证 集 上 要 好 很 多 ， 这 正 是 过 度 拟 合 的 标志 。 但 是 ， 如 果 你 使 用 更 大 
的 训练 集 ， 那 么 这 两 条 曲线 将 会 越 来 越 近 。 
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图 4-16: 多 项 式 回 归 模 型 的 学 习 曲 线 





多 ac 模型 过 度 拟 合 的 方法 之 一 是 提供 更 多 的 训练 数据 ， 直 到 验 
证 误差 接近 训练 误差 。 


偏差 / 方 天 权 衡 


在 统计 学 和 机 器 学 习 领 域 ， 一 个 重要 的 理论 结果 是 ， 模 型 的 泛 化 误 
差 可 以 补 表 示 为 三 个 截然 不 同 的 误差 之 和 : 


俩 过 


这 部 分 泛 化 误差 的 原因 在 于 错误 的 假设 ， 比 如 假设 数据 是 线性 的 ， 
而 实际 上 是 二 次 的 。 高 偏差 模型 最 有 可 能 对 训练 数据 拟 合 不 足 。 出 


方差 








这 部 分 误差 是 由 于 模型 对 训练 数据 的 微小 变化 过 度 敏 感 导致 的 。 有 具 
有 高 目 由 度 的 模型 《例如 高 阶 多 项 式 模型 ) 很 可 能 也 有 高 方 着 ， 所 以 很 
容易 对 训练 数据 过 度 拟 合 。 

不 可 避免 的 误差 

这 部 分 误差 是 因为 数据 本 映 的 噪声 所 人 臻 。 减 少 这 部 分 误差 的 唯一 方 
法 就 是 清理 数据 《例如 修复 数据 源 ， 如 损坏 的 传 感 顺 ， 或 者 是 检测 并 移 
除 寞 币值 ) 。 

增加 模型 的 复杂 度 通 癌 会 显著 提升 模型 的 方 过 ， 减 少 侦 关 。 反 过 
来 ， 降 低 模型 的 复杂 上 度 则 会 提升 模型 的 侦 着 ， 降 低 方 赤 。 这 就 是 为 什么 
称 其 为 权衡 。 


[ 册 不 要 将 这 里 的 偏差 概念 与 线性 模型 中 的 俩 置 项 概念 和 弄 混 。 











正则 线性 模型 


如 第 1 章 和 第 2 章 所 述 ， 减 少 过 度 拟 合 的 一 个 好 办 法 就 是 对 模型 正则 
化 〈“ 即 约束 它 ) : 它 拥有 的 目 由 度 越 低 ， 就 越 不 容易 过 度 拟 合 数据 。 比 
如 ， 将 多 项 式 模型 正则 化 的 简单 方法 就 是 降低 多 项 式 的 阶 数 。 


对 线性 模型 来 说， 正则 化 通常 通过 约束 模型 的 权重 来 实现 。 接 下 来 
我 们 将 会 使 用 岭 回 归 (Ridge Regression) 、 套 索 回 归 (Lasso 
Regression) 及 弹性 网 络 (Elastic Net) 这 三 种 不 同 的 实现 方法 对 权重 进 
行 约束 。 


岭 回 归 


岭 回归 〈 也 叫 作 吉 洪 诺 夫 正则 化 ) 是 线性 回归 的 正则 化 版 ; 在 成 本 
函数 中 添加 一 个 等 于 4 之 己 的 正则 项 。 这 使 得 学 习 中 的 算法 不 仅 需要 
拟 合 数据 ， 同 时 还 要 让 模型 权重 保持 最 小 。 注 意 ， 正 则 项 只 能 在 训练 的 
时 候 添加 到 成 本 函数 中 ， 一 旦 训练 完成 ， 你 需要 使 用 未 经 正则 化 的 性 能 
指标 来 评估 模型 性 能 。 























和 Ni 你 阶 段 使 用 的 成 本 函数 与 测试 时 使 用 的 成 本 函数 不 同 是 非常 
常见 的 现象 。 除 了 正则 化 以 外 ， 还 有 一 个 导致 这 种 不 同 的 原因 是 ， 训 练 
时 的 成 本 函数 通常 都 可 以 使 用 优化 过 的 衍生 函数 ， 而 测试 用 的 性 能 指标 
需要 尺 可 能 接近 最 终 目标 。 举 例 来 说 ， 一 个 使 用 对 数 损失 函数 (log 
loss， 后 文 即 将 讨论 ) 作为 成 本 函数 来 训练 的 分 类 需 ， 最 后 评估 时 使 用 
的 指标 却 古 精 度 /召回 率 。 


超 参 数 a 控 制 的 是 对 模型 进行 正则 化 的 程度 。 如 果 o=0， 则 岭 回 归 束 
古 线 性 模型 。 如 果 a 非 第 大 ， 那 么 所 有 的 权重 都 将 非常 接近 于 等 ， 结 果 
是 一 条 穿 过 数据 平均 值 的 水 平 线 。 公 式 4-8 给 出 了 岭 回 归 模 型 的 成 本 函 
数 。 山 


公式 4-8: 岭 回归 成 本 函数 














| 
J(0) = MSE(O) ta7 ob 


注意 ， 这 里 偏 置 项 6 没有 正则 化 《〈 求 和 从 i=1 开 始 ， 不 是 i=0) 。 如 
果 我 们 将 w 定 义 为 特征 权重 的 向 量 6 到 9) ， 那 么 正则 项 即 等 于 
1/2〈|Iwll,，〉 :其 中 lwll 为 权重 向 量 的 2 范 数 。 乌 而 对 于 梯度 下 降 ， 只 需要 
在 MSE 梯 度 问 量 ( 公 式 4-6) 上 添加 aw 即 可 。 








本 内 间 旧 之 入 ， 届 天 对 于 六 进 和 绽 流 << 例 其 全 用 
StandardScaler) ， 因 为 它 对 输入 特征 的 大 小 非常 敏感 。 大 多 数 正 则 化 模 
型 都 是 如 此 。 


图 4-17 显 示 了 使 用 不 同 a 值 对 某 个 线性 数据 进行 训练 的 几 种 岭 回 归 
模型 。 左 边 直 接 使 用 岭 回 归 ， 导 致 预测 是 线性 的 。 而 右边 ， 首 先 使 用 
PolynomialFeatures (degree=10) 对 数据 进行 扩展 ， 然 后 用 
StandardScaler 进 行 缩 放 ， 最 后 再 将 瞧 回 归 模 型 用 于 结 末 特征 : 这 就 是 岭 
正则 化 后 的 多 项 式 回归 。 注 意 看 a 是 如 何 使 预测 更 平坦 的 〈 也 就 是 不 那 
么 极端 ， 更 为 合理 ) ; 这 降低 了 模型 的 方差 但 是 提升 了 偏差 。 
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图 4-17: 岭 回 归 
与 线性 回归 一 样 ， 我 们 也 可 以 在 计算 闭 式 方程 或 者 执行 梯度 下 降 
时 ， 执 行 岭 回 归 。 利 商都 一 样 。 公 式 4-9 显 示 的 是 闭 式 解 〈 其 中 A 是 一 个 
nxn 的 单位 矩阵 久 ， 除 了 左上 单元 格 为 0， 其 他 与 偏 置 项 对 应 ) 。 


公式 4-9: 闭 式 解 的 岭 回归 


0 =(X .Xt+aA) :XX .y 


下 面 是 如 何 使 用 Scikit-Learmn 执 行 闭 式 解 的 岭 回 归 (使 用 的 是 公式 4- 
9 的 一 种 变 体 ， 利 用 André-Louis Cholesky 的 和 矩阵 因 式 分 解法 ) : 








>>> from sklearn.linear model import Ridge 

>>> ridge_reg = Ridge(alpha=1, solver="cholesky") 
>>> ridge reg.fit(X, y 

>>> ridge_reg.predict([[1.5]]) 


array([[ 1.55071465]]) 


使 用 随机 梯度 下 降 : 多 





>>> sgd_reg = SGDRegressor(penalLty="127”) 
>>> sgd_reg.fit(X, y.ravel()) 

>>> sgd_reg.predict([[1.5]]) 

array([[ 1.13500145]]) 


超 参 数 penalty 设 置 的 是 使 用 正则 项 的 类 型 。 设 为 "12" 表 示 硕 望 SGD 
在 成 本 函数 中 添加 一 个 正则 项 ， 等 于 权重 回 量 的 > 范 数 的 平方 的 一 半 ， 
即 岭 回归 |。 


套 索 回归 
线性 回归 的 另 一 种 正则 化 ， 叫 作 最 小 绝对 收缩 和 选择 算 子 回归 


(Least Absolute Shrinkage and Selection Operator Regression， 人 简称 Lasso 
回归 ， 或 套 索 回归 ) 。 与 岭 回 归 一 样 ， 它 也 是 向 成 本 函数 增加 一 个 正则 
项 ， 但 是 它 增 加 的 是 权重 向 量 的 11 范 数 ， 而 不 是 1, 范 数 的 平方 的 一 半 
(参见 公式 4-10) 。 


公式 4-10: Lasso 回 归 成 本 函数 


J(0) = MSE(0) +ay |0 | 


| 


图 4-18 显 示 内 容 与 图 4-17 相 同 ， 但 是 岭 回 归 横 型 换 成 了 Lasso 回 归 模 
型 ， 同 时 a 值 较 小 。 


Lasso 回 归 的 一 个 重要 特点 是 它 倾 各 于 完全 消除 挥 最 不 重要 特征 的 
权重 《也 就 是 将 它们 设置 为 零 ) 。 例 如 ， 在 图 4-18 的 右 图 中 的 虚线 (a 
一 10“) 看 起 来 像 是 二 次 的 ， 快 要 接近 于 线性 : 因为 所 有 高 阶 多 项 式 的 
特征 权重 都 等 于 零 。 换 名 话说 ，Lasso 回 归 会 自动 执行 特征 选择 并 输出 
一 个 稀 玻 模型 《 即 只 有 很 少 的 特征 有 非 零 权 重 ) 。 
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图 4-18: Lasso 回 归 


图 4-19 说 明了 情况 为 什么 是 这 样 。 在 左上 图 中 ， 背 景 轮 廊 (椭圆 》 
表示 未 正则 化 的 MSE 成 本 函数 (a 二 0) ， 白 色 圆 点 表示 该 成 本 函数 下 ， 
批量 梯度 下 降 (BGD) 的 路 径 。 前 景 轮廓 〈 奢 形 ) 表示 1 惩罚 图 数 ， 黄 
色 三 角形 表示 该 惩罚 函数 下 ， 批 量 梯度 下 降 的 路 径 Ca- oo) 。 注 意 看 
这 个 路 线 是 怎么 走 的 ， 首 先 到 达 0] 二 0， 然 后 一 路 沿 轴 滚动 ， 直 到 90, 二 
0。 在 右上 图 中 ， 背 景 轮廓 表示 同样 的 成 本 函数 加 上 一 个 a 二 0.5 的 1 和 您 庆 
函数 。 全 局 最 小 值 位 于 9, 二 0 轴 上 。 批 量 梯度 下 降 先是 到 达 了 0, 二 0， 再 
沿 轴 滚动 到 全 局 最 小 值 。 底 部 的 两 张 图 与 上 图 的 含义 相同 ， 但 是 把 l1 换 
成 了 1 惩罚 函数 。 可 以 看 出 ， 正 则 化 后 的 最 小 值 虽 然 比 未 正则 化 的 最 小 
值 更 接近 于 0 二 0， 但 是 权重 并 没有 被 完全 消除 。 
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图 4-19: Lasso 回 归 与 岭 回 归 








全 在 [asso 成 本 函数 下 BGD 最 后 的 路 线 似乎 在 轴 上 不 断 上 下 反 
弹 ， 这 是 因为 当 0, 二 0 时 ， 和 斜率 突变 。 你 需要 逐渐 降低 学 习 率 来 保证 它 
同 全 局 最 小 值 收 钱 。 


当时 0 二 0 (i 二 1，2，...，n) ，Lasso 成 本 函数 是 不 可 微 的 ， 但 
是 ， 当 任意 0 二 0 时 ， 如 果 使 用 次 梯度 向 量 g 避 作为 替代 ， 依 旧 可 以 让 梯 
度 下 降 正 党 运转。 公式 4-11 所 示 的 次 梯度 问 量 公式 ， 可 用 于 Lasso 成 本 函 
数 的 标 度 下 降 。 








公式 4-11: Lasso 回 归 次 梯度 问 量 
wo 


slgn 4 





g(0, J) = VMSE(O) +a gn(0:) = ,0(0=0) 


sign( 0, ) 


下 面 是 一 个 使 用 Scikit-Learn 的 Lasso 类 的 小 例子 。 你 还 可 以 使 用 
SGDRegressor (penalty="]1"。 


>>> from sklearn.linear model :import Lasso 
>>> lasso_reg = Lasso(alpha=0.1) 

>>> lasso_reg.fit(X, y) 

>>> lasso_reg. predict([[4. 5]]) 

array([ 1.53788174]) 


弹性 网 络 


弹性 网 络 是 岭 回 归 与 Lasso 回 归 之 间 的 中 间 地 带 。 其 正则 项 就 是 岭 
回归 和 Lasso 回 归 的 正则 项 的 混合 ， 混 合 比 例 通过 r 来 控制 。 当 r 王 0 时 ， 
弹性 网 络 即 等 同 于 岭 回 归 ， 而 当 r 一 1 时 ， 即 相当 于 Lasso 回 归 〈 见 公式 4- 
12) 。 


公式 4-12: 弹性 网 络 成 本 函数 


J(9) = MSE(b 9) +ray 0 + ye 


VS] 才 - 


那么 ， 到 底 如 何 选用 线性 回归 、 岭 回归 、Lasso 回 归 和 弹性 网 络 
呢 ? 通 滑 来 世 怕 是 很 小 ， 总 是 比 没有 更 可 取 一 些 。 所 





以 大 多 数 情况 下 ， 你 应 该 避免 使 用 纯 线性 回归 。 岭 回归 是 个 不 错 的 默认 
选择 ， 但 是 如 果 你 觉得 实际 用 到 的 特征 只 有 少数 几 个 ， 那 就 应 该 更 倾向 
于 Lasso 回 归 或 是 弹性 网 络 ， 因 为 它们 会 将 无 用 特征 的 权重 降 为 零 。 一 
般 而 言 ， 弹 性 网 络 优 于 Lasso 回 归 ， 因 为 当 特征 数量 超过 训练 实例 数 
量 ， 又 或 者 是 几 个 特征 强 相关 时 ，Lasso 回 归 的 表现 可 能 非常 不 稳定 。 


下 面 是 一 个 使 用 Scikit-Learn 的 ElasticNet 的 小 例子 (1_ratio 对 应 混 








>>> from sklearn.linear model import ElasticNet 

>>> elastic net = ElasticNet(alpha=0.1, 11_ratio=0.5) 
>>> elastic net.fit(X, y) 

>>> elastic net.predict([[1.5]]) 

array([ 1.54333232]) 





早期 停止 法 


对 于 梯度 下 降 这 一 类 运 代 学 习 的 算法 ， 还 有 一 个 与 众 不同 的 正则 化 
方法 ， 就 是 在 验证 误差 达到 最 小 值 时 停止 训练 ， 该 方法 叫 作 早期 停止 
法 。 图 4-20 展 现 了 一 个 用 批量 梯度 下 降 训 练 的 复杂 模型 〈 高 阶 多 项 式 回 
归 模 型 ) 。 经 过 一 轮 一 轮 的 训练 ， 算 法 不 断 地 学 习 ， 训 练 集 上 的 预测 误 
差 (RMSE ) 上 自然 不 断 下 降 ， 同 样 其 在 验证 集 上 的 预测 误差 也 随 之 下 
降 。 但 是 ， 一 段 时 间 之 后 ， 验 证 误差 停止 下 降 反 而 开始 回升 。 这 说 明 模 
型 开始 过 度 拟 合 训练 数据 。 通 过 早期 停止 法 ， 一 旦 验证 误差 达到 最 小 值 
就 立刻 停止 训练 。 这 是 一 个 非常 简单 而 有 效 的 正则 化 技巧 ， 所 以 
Geoffrey Hinton 称 其 为 “美丽 的 免费 午餐 ”。 
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图 4-20: 早期 停止 法 正则 化 





全 | 对 果 机 梯度 下 降 和 小 批量 梯度 下 降 来 说 ， 曲 线 没有 这 么 平滑 
所 以 很 难 知道 是 否 已 经 达到 最 小 值 。 一 种 解决 方法 是 等 验证 误差 超过 最 
小 值 一 段 时 间 之 后 再 停止 《这 时 你 可 以 确信 模型 不 会 变 得 更 好 了 ) ， 然 
后 将 模型 参数 回 深 到 验证 误差 最 小 时 的 位 置 。 


下 面 是 早期 停止 法 的 基本 实现 : 








from sklearn.base import clone 
sgd_reg = SGDRegressor(n_iter=1, warm_start=True, penalty=None, learning_rate="con 


minimum_val error = float("inf") 
best_epoch = None 


best_model = None 
for epoch in range(1000): 
sgd_reg.fit(X train poly_scaled, y train) # continues where it left off 
y_val predict = sgd_reg.predict(X val poly_scaled) 
val _ error = mean_ squared error(y_val predict, y_val) 
if val error < minimum_ val_error: 
minimum _ val _ error = val error 
best_epoch = epoch 
best_ model = clone(sgd_reg) 





注意 ， 当 warm_start=True 时 ， 调 用 fit () 方法 ， 会 从 停 下 的 地 方 继 
续 开 始 训练 ， 而 不 会 重新 开始 。 


逻辑 回归 


正如 第 1 章 中 提 到 过 的 ， 一 些 回归 算法 也 可 用 于 分 类 (反之 亦 
然 )。 逻 辑 回 归 (Logistic 回 归 ， 也 称 为 罗 吉 思 回 归 )〉 被 广泛 用 于 估算 
一 个 实例 属于 某 个 特定 类 别 的 概率 。《〈 比 如 ， 这 封 电子 邮 件 属于 垃圾 邮 
件 的 概率 是 多 少 ? ) 如 果 预 估 概 率 超过 50%， 则 模型 预测 该 实例 属于 该 
类 别 〈 称 为 正 关 ， 标 记 为 "1”) ， 反 之 ， 则 预测 不 是 (也 就 是 负 类 ， 标 
记 为 <0”) 。 这 样 它 就 成 了 一 个 二 元 分 类 器 。 
概率 估算 

所 以 它 是 怎么 工作 的 呢 ? 跟 线 性 回归 模型 一 样 ， 罗 辑 回归 模型 也 是 
计算 输入 特征 的 加 权 和 (加 上 偏 置 项 ) ， 但 是 不 同 于 线性 回归 模型 直接 
输出 结果 ， 它 输出 的 是 结果 的 数理 逻辑 (参见 公式 4-13) 。 


公式 4-13: 逻辑 回归 模型 概率 估算 ( 同 量化 形式 ) 


Pp =h,(x) =o(0 .xX) 


逻辑 模型 (也 称 为 罗 吉 特 ) ， 是 一 个 sigmoid 函 数 〈 即 S 形 ) ， 记 作 
o《*) ， 它 的 输出 为 一 个 0 到 1 之 间 的 数字 。 定 义 如 公式 4-14 和 图 4-21 所 
人 No 


公式 4-14: 逻辑 函数 








图 4-21: 逻辑 函数 


一 旦 逻辑 回归 模型 估算 出 实例 x 属 于 正 类 的 概率 =-hy (x) ， 就 可 
以 轻松 做 出 预测 》( 见 公式 4-15)。 


公式 4-15: 逻辑 回归 模型 预测 
0(p < 0.5) 
由 

Il(P 3) 


注意 ， 当 t<0 时 ，o (t)<0.5;， 当 t20 时 ，o (t) >0.5。 所 以 如 果 9T:x 
是 正 类 ， 人 逻辑 回归 模型 预测 结果 是 1， 如 果 是 负 类 ， 则 预测 为 0。 





训练 和 成 本 函数 


现在 你 知道 逻辑 回归 模型 是 如 何 佑 算 概 率 并 做 出 预测 了 。 但 是 要 怎 
么 训练 呢 ? 训练 的 目的 就 是 设置 参数 癌 量 06， 使 模型 对 正 类 实例 做 出 高 
概率 估算 〈y=1) ， 对 负 类 实例 做 出 低 概率 估算 〈y=0) 。 公 式 4-16 所 示 
为 单个 训练 实例 x 的 成 本 函数 ， 正 说 明了 这 一 点 。 


公式 4-16: 单个 训练 实例 的 成 本 函数 


- log(p ) (y=1) 
-log(l -9) ‘(y=0) 


这 个 成 本 函数 是 有 道理 的 ， 因 为 当 t 接 近 于 0 时 ，-log (t) 会 变 得 非 
常 大 ， 所 以 如 果 模 型 估算 一 个 正 类 实例 的 概率 接近 于 0， 成 本 将 会 变 得 
很 高 。 同 理 估 算出 一 个 负 类 实例 的 概率 接近 1， 成 本 也 会 变 得 非常 高 
那么 反 过 来 ， 当 t 接 近 于 1 的 时 候 ，-log (t) 接近 于 0， 所 以 对 一 个 负 类 
例 估 算出 的 概率 接近 于 0， 对 一 个 正 类 实例 估算 出 的 概率 接近 于 1， 而 成 
本 则 都 接近 于 0， 这 不 正好 是 我 们 想 要 的 吗 ? 


整个 训练 集 的 成 本 函数 即 为 所 有 训练 实例 的 平均 成 本 。 它 可 以 记 成 
一 个 单独 的 表达 式 〈 可 以 轻松 验证 ) ， 如 公式 4-17 所 示 ， 这 个 函数 被 称 
为 log 损 失 函 数 。 


公式 4-17: 逻辑 回归 成 本 函数 (log 损失 函数 ) 


-Dr log( 人 )+(L- 六 )og( -六 


但 是 坏 消 奶 oo 
得 的 等 从 方程》 来 计算 出 最 小 化 成 本 本 妆 的 6 修 ， 而 好 汇 息 是 这 是 
口 函 数 ， 所 以 通过 梯度 下 降 或 是 其 他 任 芝 优化 算法 你 证 地 按 出 全 
局 最 小 值 〈 只 要 学 习 率 不 是 太 高 ， 你 又 能 长 时 间 等 每 )。 公 式 4-18 给 出 














了 成 本 函数 关于 第 j 个 模型 参数 0 的 偏 导数 方程 。 
公式 4-18: Logistic 成 本 函数 的 偏 导 数 


0 | r 1 -i 
D9) = (olF ex) -由 


mn 


hb 1 


公式 4-18 与 公式 4-5 看 起 来 非常 相似 : 计算 出 每 个 实例 的 预 训 误 关 ， 
并 将 其 乘 以 第 j 个 特征 值 ， 然 后 再 对 所 有 训练 实例 求 平 均值 。 一 旦 你 有 
了 包含 所 有 偏 导 数 的 梯度 向 量 束 可 以 使 用 标 度 下 降 算 法 了 。 束 是 这 样 ， 
现在 你 知道 如 何 训 练 逻辑 模型 了 。 对 随机 梯度 下 降 ， 一 次 使 用 一 个 实 
例 ， 对 小 批量 梯度 下 降 ， 一 次 使 用 一 个 小 批量 。 


决策 边界 
这 里 我 们 用 访 尾 植物 数据 集 来 说 明 逻 辑 回 归 。 这 是 一 个 非 第 著名 的 
数据 集 ， 共 有 150 条 总 尾 化 ， 分 别 来 目 三 个 不 同 品 种 : Setosa 访 尾 花 、 


Versicolor 间 尾 人 共和 Virginica 竟 尾 花 ， 数 据 里 包含 花 的 苯 片 以 及 花 淮 的 长 
度 和 宽度 〈 见 图 4-22) 。 


| 
| 
\ i 


| Setosa 


[lu 





Virginica 








图 4-22: 三 种 不 同 品种 的 韵尾 花 句 


我 们 试 试 仅 基于 花 办 宽度 这 一 个 特征 ， 创 建 一 个 分 类 器 来 检测 
Virginica 意 尾 花 。 首 先 加 载 数据 ; 








>>> from sklearn :Import datasets 
>>> iris = datasets.1oad_ iris() 
>>> list(iris,.keys()) 


['data', 'target _ names', 'feature names', 'target', 'DESCR'] 
>>> X = iris["data"][:, 3:] # petal width 
>>> y = (iris["target"] == 2).astype(np.int) # 1 if Iris-Virginica, else 0 





训练 逻辑 回归 模型 : 





from sklearn.linear_model import LogisticRegression 


Jog_reg = LogisticRegression() 
log_reg.fit(X, y) 








我 们 来 看 看 对 于 花 汶 宽 度 在 0 到 3 厘米 之 间 的 芒 尾 花 ， 模 型 估算 出 的 
概率 〈 见 图 4-23) 。 





X_new = np.linspace(0, 3, 1000).reshape(-1, 1) 

y_proba = log_reg.predict proba(X_new) 

plt.plot(X_ new, y_proba[:, 1], "g-", label="Iris-Virginica") 
plt.plot(X new, y_proba[:, 0], "b--", label="Not Iris-Virginica") 
# + more Matplotlib code to make the image look pretty 





2.0 2 3,0 


15 
花瓣 宽度 【cm 
图 4-23: 估算 概率 和 决策 边界 


Virginica 高 尾 花 (三 角形 所 示 )〉 的 花瓣 宽度 范围 为 1.4 一 2.5 厘 米 ， 
而 其 他 两 种 芒 尾 花 ( 正 方形 所 示 ) 花瓣 通 常 较 窗 ， 花 办 宽度 范围 为 0.1 
一 1.8 厘 米 。 注 意 ， 这 里 有 一 部 分 重 于 。 对 花 办 宽度 超过 2cm 的 花 ， 分 类 
器 可 以 很 有 信心 地 说 它 是 一 打 Virginica 芒 尾 花 (对 该 类 别 输出 一 个 高 概 
率 值 )， 对 花 泊 宽度 低 于 lcm 以 下 的 ， 也 可 以 胸有成竹 地 说 其 不 是 
(对 * 非 Virginica 总 尾 花 ?类 别 输出 一 个 高 概率 值 ) 。 在 这 两 个 极端 之 
间 ， 分 类 器 则 不 太 有 把 握 。 但 是 ， 如 果 你 要 求 它 预测 出 类 别 〈 使 用 
predict 〈) 方法 而 不 是 predict_proba 〈) 方法 ) ， 它 将 返回 一 个 可 能 性 
最 大 的 类 别 。 也 就 是 说 ， 在 大 约 1.6 厘 米 处 存在 一 个 决策 边界 ， 这 
里 “是 ”和 “不 是 ”的 可 能 性 都 是 50%， 如 果 花 瓣 宽度 大 于 1.6 厘 米 ， 分 类 器 
就 预测 它 是 Virginica 总 尾 花 ， 和 否则 就 预测 不 是 〈 即 使 它 没 什么 把 握 ) : 





























>>> log_reg.predict([[1.7], [1.5]]) 
array([1，0]) 





图 4-24 还 是 同样 的 数据 集 ， 但 是 这 次 显示 了 两 个 特征 : 花 为 宽度 和 
化 淤 长 度 。 经 过 训练 ， 这 个 过 辑 回归 分 类 器 就 可 以 基于 这 两 个 特征 来 预 





测 新 花 东 是否 属于 Virginica 总 尾 花 。 虚 线 表 示 模 型 估算 概率 为 50% 的 
点 ， 即 模型 的 决策 边界 。 注 意 这 里 是 一 个 线性 的 边界 。( 注 : 它 是 使 方 
程 90+01Xx1+92x2=0 的 点 x 的 集合 ， 这 个 方程 定义 的 是 一 条 直线 。) 每 条 平 
行 线 都 分 别 代表 一 个 模型 输出 的 特定 概率 ， 从 左下 的 15% 到 右上 的 
90%。 根 据 这 个 模型 ， 右 上 线 之 上 的 所 有 人 花 和 打 ， 都 有 超过 90% 的 概率 属 
于 Virginica 访 尾 花 。 
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图 4-24: 线性 决策 边界 


与 其 他 线性 模型 一 样 ， 逻 辑 回归 模型 可 以 用 1 或 1 惩罚 函数 来 正则 
化 。Scikit-Leam 默 认 添 加 的 是 1 函数 。 


Ar: 制 Scikit-Learn 的 LogisticRegression 模 型 正则 化 程度 的 超 参 数 
不 是 alpha〈 其 他 线性 模型 使 用 alpha) ， 而 是 它 的 逆反 : C，C 的 值 越 
高 ， 模 型 正则 化 程度 越 高 。 


Softmax 回 归 
逻辑 回归 模型 经 过 推广 ， 可 以 直接 支持 多 个 类 别 ， 而 不 需要 训练 并 


组 合 多 个 二 元 分 类 需 〈 如 第 3 章 所 述 ) 。 这 就 是 Softmax 回 归 ， 或 者 叫 多 
元 逻辑 回归 。 





原理 很 简单 : 对 于 一 个 给 定 的 实例 x，Softmax 回 归 模 型 首先 计算 出 
每 个 类 别 k 的 分 数 sk (x) ， 然 后 对 这 些 分 数 应 用 softmax 函 数 〈 也 叫 归 一 
化 指数 ) ， 估 算出 每 个 类 别 的 概率 。 你 应 该 很 熟悉 计算 sk (xX) 分 数 的 
公式 (公式 4-19) ， 因 为 它 看 起 来 就 跟 线性 回归 预测 的 方程 一 样 。 


公式 4-19: 类 别 k 的 Softmax 分 数 


T 
Ss 0 
9 ( X ) 人 "XX 
注意 ， 每 个 类 别 都 有 自己 特定 的 参数 回 量 0.。 所 有 这 些 同 量 通 常 都 
作为 行 存储 在 参数 矩阵 中 。 


计算 完 实 例 x 每 个 类 别 的 分 数 后 ， 就 可 以 通过 Softmax 函 数 〈 公 式 4- 
20) 来 计算 分 数 ， 计 算出 每 个 分 数 的 指数 ， 然 后 对 它们 进行 妇 一 化 处 理 
〈 除 以 所 有 指数 的 总 和 ) 即 得 到 Pr*， 也 就 是 实例 属于 类 别 k 的 概率 。 


公式 4-20: Softmax 函 数 








开征 类 别 的 数量 
s(x) 是 实例 x 每 个 类 别 的 分 数 的 问 量 
“0 (s《X) ) k 是 给 定 的 类 别 分 数 下 ， 实 例 x 属 于 类 别 k 的 概率 


跟 逻 辑 回 归 分 类 器 一 样 ，Softmax 回 归 分 类 器 将 估算 概率 值 最 高 的 


类 别 作 为 预测 类 别 〈 也 就 是 分 数 最 高 的 类 别 ) ， 如 公式 4-21 所 示 。 
公式 4-21: Softmax 回 归 分 类 器 预测 


人 


) = argmax FOR) = argmax WR) = argmax( 'X) 





argmax 运 算 符 返 回 的 是 使 函数 最 大 化 所 对 应 的 变量 的 值 。 在 这 个 
等 式 里 ， 它 返回 的 是 使 估算 概率 (s(x) ) k 了 最 大 的 k 的 值 。 





多 :ormaxa 中 分 类 需 一 次 只 会 预测 一 个 类 别 〈 也 融 是 说 ， 它 是 多 
类 别 ， 但 是 不 是 多 输出 ) ， 所 以 它 应 该 仅 适 用 于 互 斥 的 类 别 之 上 ， 例 如 
植物 的 不 同 种 类 。 你 不 能 用 它 来 识别 一 张 照片 中 的 多 个 人 。 


既然 你 已 经 知道 了 模型 如 何 进行 概率 估算 并 做 出 预测 ， 那 我 们 再 来 
看 看 怎么 训练 。 训 练 目 标 是 得 到 一 个 能 对 目标 类 别 做 出 高 概率 估算 的 模 
型 (也 就 是 其 他 类 别 的 概率 相应 要 很 低 ) 。 通 过 将 公式 4-22 的 成 本 函数 
(也 叫 作 交 又 烂 ) 最 小 化 来 实现 这 个 目标 ， 因 为 当 模型 对 目标 类 别 做 出 
较 低 概率 的 估算 时 ， 会 受到 和 您 阐 。 交 叉 燃 经 常 被 用 于 衡量 一 组 估算 出 的 
类 别 概率 跟 目 标 类 别 的 匹配 程度 〈 后 面 的 章节 中 还 会 多 次 用 到 )。 


公式 4-22: 交 义 炉 成 本 函数 
| m K 


1(@) =-C— yi log(p» ) 
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Nu al] $ 








AAA 。 Pe = 、 i \ 
.如 果 第 i 个 实例 的 目标 类 别 为 k， 则 六 等 于 1， 和 否则 为 0。 


注意 ， 当 只 有 两 个 类 别 〈K=2) 时 ， 该 成 本 函数 等 价 于 逻辑 回归 的 
成 本 函数 (log 损失 函数 ， 参 见 公 式 4-17) 。 


交叉 炳 





交叉 焙 源 于 信息 理论 。 假 设 你 想 要 有 效 传递 每 天 的 天 气 信 息 ， 选 项 
( 晴 、 下 雨 等 有 8 个 ， 那 么 你 可 以 用 3 比特 对 每 个 选项 进行 编码 ， 因 为 
23=8。 但 是 ， 如 果 你 认为 几乎 每 天 都 是 晴天 ， 那 么 ， 对 “晴天 ”用 1 比特 
(0) ， 其 他 七 个 类 别 用 4 比特 (从 1 开始 ) 进行 编码 ， 显 然 会 更 有 效率 
一 些 。 交 叉 精 衡量 的 是 你 每 次 发 送 天 气 选项 的 平均 比特 数 。 如 果 你 对 天 
气 的 假设 是 完美 的 ， 交 议 将 会 等 于 天 气 本 身 的 粹 (也 就 是 其 本 身 固有 
的 不 可 预测 性 ) 。 但 是 如 果 你 的 假设 是 错误 的 (比如 经 常 下 雨 ) ， 交 叉 
人 将 会 变 大 ， 增 加 的 这 一 部 分 我 们 称 之 为 KL 散 度 (Kullback-Leibler 
divergence， 也 叫 作 相对 和 ) 。 


两 个 概率 分 布 p 和 g 之 间 的 交叉 炉 定 义 为 H (p,q) =-2.pD (x) log 
q (x) (至 少 在 离散 分 布 时 可 以 这 样 定义 〉。 

公式 4-23 给 出 了 该 成 本 函数 关于 6. 的 梯度 同 量 : 

公式 4-23: 对 于 类 别 k 的 交叉 灶 梯 度 同 量 
Mm 


V, /1(0) = = (Fe yx 


Wp al 


现在 可 以 计算 出 每 个 类 别 的 梯度 辐 量 ， 然 后 使 用 桂 度 下 降 ( 或 任意 
其 他 优化 算法 ) 找到 最 小 化 成 本 函数 的 参数 矩阵 9@。 


我 们 来 使 用 Softmax 回 归 将 竟 尾 花 分 为 三 类 。 当 用 两 个 以 上 的 类 别 
训练 时 ，Scikit-Learn 的 LogisticRegressio 默 认 选 择 使 用 的 是 一 对 多 的 训 
练 方式 ， 不 过 将 超 参 数 multi_class 设 置 为 "multinomial"， 可 以 将 其 切换 
成 Softmax 回 归 。 你 还 必须 指定 一 个 支持 Softmax 回 归 的 求解 器 ， 比 
如 "lbfgs" 求 解 器 ( 详 见 Scikit-Learn 文 档 ) 。 默 认 使 用 12 正 则 化 ， 你 可 以 
通过 超 参数 C 进 行 控 制 | 。 




















X = iris["data"][:, (2, 3)] # petal length, petal width 
y = iris["target"] 


softmax_reg = LogisticRegression(multi class="multinomial",solver="lbfgs", C=10) 
softmax_reg.fit(X, y) 








所 以 当 你 下 次 伴 到 一 条 忘 尾 花 ， 龙 办 长 5 厘米 冤 2 厘 米 ， 你 就 可 以 让 
模型 告诉 你 它 的 种 类 ， 它 会 回答 说 : 94.2% 的 概率 是 Virginica 总 尾 花 
(第 2 类 ) 或 者 5.8% 的 概率 为 Versicolor 苞 尾 龙 : 








>>> softmax_reg.predict([[5, 2]]) 

array([2]) 

>>> softmax_reg.predict_proba([[5, 2]]) 

array([[ 6.33134078e-07, 5.75276067e-02, 9.42471760e-01]]) 








图 4-25 展 现 了 由 不 同 背 景色 表示 的 决策 边界 。 注 意 ， 任 何 两 个 类 别 
之 间 的 决策 边界 都 是 线性 的 。 图 中 的 折线 表示 属于 Versicolor 况 尾 花 的 
概率 〈 例 如 ， 标 记 为 0.45 的 线 代 表 45% 的 概率 边界 ) 。 注 意 一 点 ， 该 模 
型 预测 出 的 类 别 ， 其 估算 概率 有 可 能 低 于 50%， 比 如 ， 在 所 有 决策 边界 
相交 的 地 方 ， 所 有 类 别 的 估算 概率 都 为 33%。 
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图 4-25: Softmax 回 归 决 策 边 界 
[1 对 于 没有 和 常用 简写 的 成 本 函数 ， 通 常用 符 写 J (0) 来 表示 ， 后 面 还 
”00 所 以 请 通过 上 下 文 来 判断 讨论 的 是 哪个 成 本 函 
[2] 有 关 范 数 的 讨论 请 参考 第 2 章 。 
[3] 单位 矩阵 ;一 个 除了 主 对 角 线 〈 左 上 到 右 下 ) 为 1， 其 他 单元 格 全 部 
为 0 的 方形 矩阵 。 








[4] 或 者 ， 你 也 可 以 使 用 Ridge 类 的 9g" 求解 融 。 随机 平均 梯度 下 降 
(sag) 是 梯度 下 降 的 一 种 变 体 。 更 多 详细 信息 请 参考 不 列 颠 哥伦比亚 
大 学 Mark Schmidt 等 人 的 演示 文稿 Minimizing Finite Sums with the 

Stochastic Average Gradient Algo - rithm”(http://goo.gl/vxVyA2). 

[5] 你 可 以 把 不 可 微 的 点 上 的 次 梯度 向 量 想 象 为 这 个 点 周围 的 梯度 向 量 

之 间 的 中 间 矢 量 。 

16] 图 片 转 目 相 应 的 维基 百科 页 面 。Virginica 意 尾 花 的 图 片 出 目 Frank 

人 Versicolor 总 尾 花 的 图 片 出 和 目 D.Gordon E.Robertson，Setosa 旋 
尾 花 图 片 来 目 公共 域 。 





练习 
0 
算 ; ? 

2. 如 宁 你 的 训练 集 里 特征 的 数值 大 小 迎 异 ， 什 么 算法 可 能 会 受到 影 
啊 ? 受 影响 程度 如 何 ? 你 应 该 怎么 做 ? 

3. 训 练 逻 辑 回归 模型 时 ， 梯 度 下 降 是 售 会 困 于 局 部 最 小 值 ? 


4. 假 设 运行 时 间 足 够 长 ， 所 有 的 梯度 下 降 算 法 是 不 是 最 终 会 产生 相 
同 的 模型 ? 

5. 假 设 你 使 用 的 是 批量 梯度 下 降 ， 并 且 每 一 轮训 练 都 绘制 出 其 验证 
误 着 ， 如 宋 发 现 验证 误 兰 持续 上 升 ， 可 能 发 生 了 什么 ? 你 如 何 解决 这 个 


问题 ? 


6. 当 验证 误差 开始 上 升 时 ， 立 刻 集 止 小 批量 标 肛 下 降 算 法 训练 是 否 
为 一 个 好 主意 ? 


7. 哪 种 标 度 下 降 算 法 (所 有 我 们 讨论 过 的 ) 能 最 快 到 达 最 优 解 的 附 
近 ? 哪 种 会 收敛 ? 如 何 使 其 他 算法 同样 收敛 ? 


8. 假 设 你 使 用 的 是 多 项 式 回 归 ， 绘 制 出 学 习 曲 线 ， 你 发 现 训 练 误差 
和 验证 误差 之 间 存 在 很 大 的 差距 。 发 生 了 什么 ? 哪 三 种 方法 可 以 解决 这 
个 问题 ? 

9. 假 设 你 使 用 的 是 岭 回 归 ， 你 注意 到 训练 误差 和 验证 误差 几乎 相 
等 ， 并 且 非 常 高 。 你 认为 模型 是 高 方差 还 是 高 偏差 ? 你 应 该 提高 还 是 降 
低 正 则 化 超 参 数 ? 

10. 你 为 何 要 使 用 : 

: 岭 回 归 而 不 是 线性 回归 ? 


:Lasso 回 归 而 不 是 岭 回 归 ? 


















































:弹性 网 络 而 不 是 Lasso 回 归 ? 


11. 如 果 你 想 将 图 片 分 类 为 户外 /室内 以 及 白天 /黑夜 。 你 应 该 实现 两 
个 逻辑 回归 分 类 器 还 是 一 个 Softmax 回 归 分 类 器 ? 


12. 用 Softmax 回 归 进 行 批量 梯度 下 降 训 练 ， 并 实施 早期 停止 法 (不 
使 用 Scikit-Learn ) 。 


以 上 练习 的 解答 可 从 附录 A 中 获得 。 





第 5 草 ” 文 持 问 量 机 


文 持 问 量 机 《简称 SVM) 是 一 个 功能 强大 并 且 全 面 的 机 器 学 习 模 
型 ， 它 能 够 执行 线性 或 非 线 性 分 类 、 回 归 ， 甚 至 是 异常 值 检 测 任 务 。 它 
是 机 器 学 习 领域 最 受 欢 迎 的 模型 之 一 ， 任 何 对 机 器 学 习 感 兴趣 的 人 部 应 
该 在 工具 箱 中 配备 一 个 。SVM 特 别 适用 于 中 小 型 复杂 数据 集 的 分 类 。 


本 章 将 会 介绍 不 同 SVM 的 核心 概念 ， 怎 么 使 用 它们 以 及 它们 的 工作 
原理 。 








线性 SVM 分 类 


SVM 的 基本 思想 可 以 用 一 些 图 来 说 明 。 图 5-1 所 示 的 数据 集 来 自 第 4 
章 末 尾 引 用 的 高 尾 花 数据 集 的 一 部 分 。 两 个 类 别 可 以 轻松 地 被 一 条 直线 
(它们 是 线性 可 分 离 的 ) 分 开 。 左 图 显示 了 三 种 可 能 的 线性 分 类 需 的 决 
策 边 界 。 其 中 虚线 所 代表 的 模型 表现 非常 糟糕 ， 甚 至 都 无 法 正确 实现 分 
类 。 其 余 两 个 模型 在 这 个 训练 集 上 表现 堪 称 完美 ， 但 是 它们 的 决策 边界 
与 实例 过 于 接近 ， 导 致 在 面 对 新 实例 时 ， 表 现 可 能 不 会 太 好 。 相 比 之 
下 ， 右 图 中 的 实 线 代 表 SVM 分 类 器 的 决策 边界 ， 这 条 线 不 仅 分 离 了 两 个 
类 别 ， 并 且 尽 可 能 远离 了 最 近 的 训练 实例 。 你 可 以 将 SVM 分 类 器 视 为 在 
类 别 之 间 拟 合 可 能 的 最 宽 的 街道 〈 平 行 的 虚线 所 示 ) 。 因 此 这 也 叫 作 大 


间隔 分 类 (large margin classification ) 。 
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图 5-1: 大 间隔 分 类 


请 注意 ， 在 街道 以 外 的 地 方 增加 更 多 训练 实例 ， 不 会 对 决策 边界 产 
影响 :也 就 是 说 它 完 全 由 位 于 街道 边缘 的 实例 所 决定 (或 者 称 之 
为 " 文 持 ”) 。 这 些 实例 被 称 为 文 持 回 量 〈 在 图 5-1 中 己 圈 出 ) 。 








策 \svyM 对 特征 的 缩放 非常 敏感 ， 如 图 5-2 所 示 ， 在 左 图 中 ， 季 二 
刻度 比 水 平 刻 度 大 得 多 ， 因 此 可 能 的 最 宽 的 街道 接近 于 水 平 。 在 特征 缩 
放 【〔( 例 如 使 用 Scikit-Leam 的 StandardScaler) 后 ， 决 策 边界 看 起 来 好 很 多 
( 见 右 图 〉。 














As 
”ws 
局 





0 h PA D0 i | 
0 ] 2 3 4 ) 6 -70 -15 -10 -05 00 05 10 15 20 
Xo Yo 


图 5-2: 对 特征 缩放 的 敏感 度 





软 间隔 分 类 


如 果 我 们 严格 地 让 所 有 实例 都 不 在 街道 上 ， 并 且 位 于 正确 的 一 边 ， 
这 就 是 便 间 隔 分 类 。 便 间隔 分 类 有 两 个 主要 问题 ， 首 先 ， 它 只 在 数据 是 
线性 可 分 离 的 时 候 才 有 效 ， 其 次 ， 它 对 异常 值 非常 敏感 。 图 5-3 显 示 了 
有 一 个 额外 异常 值 的 高 尾 花 数据 : 左 图 的 数据 根本 找 不 出 硬 间隔 ， 而 右 
图 最 终 显示 的 决策 边界 与 我 们 在 图 5-1 中 所 看 到 的 无 异常 值 时 的 决策 边 
界 也 大 不 相同 ， 可 能 无 法 很 好 地 泛 化 。 
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图 5-3: 硬 间 隔 对 异常 值 的 敏感 度 


要 避免 这 些 问 题 ， 最 好 使 用 更 灵活 的 模型 。 目 标 是 尽 可 能 在 保持 街 
道 宽 益 和 限制 间隔 违例 〈 即 位 于 街道 之 上 ， 甚 至 在 错误 的 一 边 的 实例 ) 
之 间 找 到 民 好 的 平衡 ， 这 就 是 软 间隔 分 类 。 











在 Scikit-Learn 的 SVM 类 中 ， 可 以 通过 超 参 数 C 来 控制 这 个 平衡 : C 
值 越 小 ， 则 街道 越 宽 ， 但 是 间隔 违例 也 会 越 多 。 图 5-4 显 示 了 在 一 个 非 
线性 可 分 离 数 据 集 上 ， 两 个 软 间隔 SVM 分 类 器 各 自 的 决策 边界 和 间隔 。 
左边 使 用 了 高 C 值 ， 分 类 器 的 间隔 违例 较 少 ， 但 是 间隔 也 较 小 。 右 边 使 
用 了 低 C 值 ， 间 隔 大 了 很 多 ， 但 是 位 于 街道 上 的 实例 也 更 多 。 看 起 来 第 
二 个 分 类 器 的 泛 化 效果 更 好 ， 因 为 大 多 数 间 隔 违 例 实 际 上 都 位 于 决策 边 
界 正 确 的 一 边 ， 所 以 即便 是 在 该 训练 集 上 ， 它 做 出 的 错误 预测 也 会 更 


少 。 
































图 5-4: 较 少 间隔 违例 和 大 间隔 对 比 


如 果 你 的 SVM 模型 过 度 拟 合 ， 可 以 试 试 通过 降低 C 来 进行 正则 化 。 


下 面 这 段 Scikit-Leam 代 码 : 加 载 齐 尾 花 数据 集 ， 缩 放 特征 ， 然 后 训 
练 一 个 线性 SVM 模 型 (使 用 LinearSVC 类 ，C=0.1， 用 即将 介绍 的 hinge 
损失 函数 〉 用 来 检测 Virginica 遍 尾 花 。 得 到 的 模型 如 图 5-4 右 图 所 示 。 








import numpy as np 

from sklearn import datasets 

from sklearn.pipeline import Pipeline 

from sklearn.preprocessing import StandardScaler 
from sklearn.svm import LinearSVC 


iris = datasets.1load_ iris() 
xX = iris["data"][:, (2, 3)] # petal length, petal width 
y = (iris["target"] == 2).astype(np.float64) # Iris-Virginica 


svm_clf = Pipeline(( 
("scaler", Standardscaler()), 
("linear_svc", LinearSsvc(C=1, loss="hinge")), 


)) 





svm_clf.fit(X_ scaled, y) 





然后 ， 按 照 惯例 ， 你 可 以 用 模型 做 出 预 训 : 





>>> Svm_clf.predict([[5.5，1.7]]) 
array([ 1.]) 





与 Logistic 回 归 分 类 器 不 同 的 是 ，SVM 分 类 器 不 会 输出 每 个 类 别 的 


或 者 ， 你 还 可 以 选择 SVC 类 ， 使 用 SVC (kernel="linear"，C=1) ， 
但 是 这 要 慢 得 多 ， 特 别 是 对 于 大 型 训练 集 而 言 ， 因 此 不 推荐 使 用 。 男 一 
个 选择 是 SGDClassifier 类 ， 使 用 SGDClassifier (loss="hinge"，alpha=1/ 
CmxC) ) 。 这 适用 于 常规 随机 梯度 下 降 〈 参 见 第 4 章 ) 来 训练 线性 
SVM 分 类 事 。 它 不 会 像 LinearSVC 类 那样 快速 收 全 ， 但 是 对 于 内 存 处 理 
不 了 的 大 型 数据 集 〈 核 外 训练 ) 或 是 在 线 分 类 任务 ， 它 非常 有 效 。 











全 Linearsvc 类 会 对 偏 置 项 进行 正则 化 ， 所 以 你 需要 先 减 去 平均 

值 ， 使 训练 集 集 中 。 如 果 使 用 StandardScaler 会 自动 进行 这 一 步 。 此 外 ， 
请 确保 超 参数 loss 设 置 为 "hinge"， 因 为 它 不 是 默认 值 。 最 后 ， 为 了 获得 
更 好 的 性 能 ， 还 应 该 将 超 参 数 dual 设 置 为 False， 除 非特 征 数 量 比 训练 实 
例 还 多 (本 章 后 文 将 会 讨论 ) 。 


非 线 性 SVM 分 类 


里 然 在 许多 情况 下 ， 线 性 SVM 分 类 器 是 有 效 的 ， 并 且 通 党 出 人 意料 
的 好 ， 但 是 ， 有 很 多 数据 集 远 不 是 线性 可 分 离 的 。 处 理 非 线性 数据 集 的 
方法 之 一 是 添加 更 多 特征 ， 比 如 多 项 式 特征 (如 第 4 章 所 述 ) ， 东 些 情 
况 下 ， 这 可 能 导致 数据 集 变 得 线性 可 分 离 。 参 见 图 5-5 的 左 图 : 这 是 一 
个 简单 的 数据 集 ， 只 有 一 个 特征 xi， 可 以 看 出 ， 数 据 集 线性 不 可 分 。 但 
是 如 果 添 加 第 二 个 特征 zz= Cx)“， 生 成 的 2D 数 据 集 则 完全 线性 可 分 


i 


的 。 
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图 5-5: 通过 添加 特征 使 数据 集 线 性 可 分 离 


要 使 用 Scikit-Learn 实 现 这 个 想法 ， 可 以 搭建 一 条 流水 线 : 一 个 
PolynomialFeatures 转 换 妖 ， 接 着 一 个 StandardScaler， 然 后 是 
LinearSVC。 我 们 用 卫星 数据 集 来 测试 一 下 《〈 见 图 5-6) : 





from sklearn.datasets import make_moons 
from sklearn.pipeline import Pipeline 


from sklearn.preprocessing import PolynomialFeatures 


polynomial_svm_clf = Pipeline(( 
("poly_features", 
("scaler", Standardscaler()), 


PolynomialFeatures(degree=3)), 





("svm clf", LinearSsvc(C=10, loss="hinge")) 
)) 


polynomial_ svm_ clf.fit(X, y) 











图 5-6: 使 用 多 项 式 特征 的 线性 LVM 分 类 器 
多 项 式 核 


添加 多 项 式 特征 实现 起 来 非常 简单 ， 并 且 对 所 有 的 机 器 学 习 算法 
(不 只 是 SVM) 都 非常 有 效 。 但 问题 是 ， 如 果 多 项 式 太 低 阶 ， 处 理 不 了 
非常 复杂 的 数据 集 ， 而 高 阶 则 会 创造 出 大 量 的 特征 ， 导 致 模型 变 得 太 


慢 。 


幸运 的 是 ， 使 用 SVM 时 ， 有 一 个 魔术 般 的 数学 技巧 可 以 应 用 ， 这 束 
是 核 技巧 〈 稍 后 解释 ) 。 它 产生 的 结果 就 跟 添 加 了 许多 多 项 式 特征 ， 甚 


至 是 非常 高 阶 的 多 项 式 特征 一 样 ， 但 实际 上 并 不 需要 真 的 添加 。 因 为 实 
际 没有 添加 任何 特征 ， 所 以 也 就 不 存在 数量 爆炸 的 组 合 特征 了 。 这 个 技 
巧 由 SVC 类 来 实现 ， 我 们 看 看 在 卫星 数据 集 上 的 测试 : 








from sklearn.svm import SVC 
poly_kernel_svm_clf = Pipeline(( 
("scaler", Standardscaler()), 
("svm clf", SVC(kernel="poly", degree=3, coefQ=1, C=5)) 


) ) 
poly_kernel_ svm clf.fit(X, y) 





这 段 代 码 使 用 了 一 个 3 阶 多 项 式 内 核 训练 SVM 分 类 器 。 如 图 5-7 的 左 
图 所 示 。 而 右 图 是 另 一 个 使 用 了 10 阶 多 项 式 核 的 SVM 分 类 器 。 显 然 ， 如 
果 模 型 过 度 拟 合 ， 你 应 该 降低 多 项 式 阶 数 ， 反 过 来 ， 如 果 拟 合 不 足 ， 则 
可 以 尝试 使 之 提升 。 超 参数 coef0 控 制 的 是 模型 受 高 阶 多 项 式 还 是 低 阶 
多 项 式 影响 的 程度 。 
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图 5-7: 多 项 式 核 的 SVM 分 类 器 





名 导 找 正确 的 超 参数 值 的 常用 方法 是 网 格 搜索 ( 见 第 2 章 ) 。 先 进 
行 一 次 粗略 的 网 格 搜索 ， 然 后 在 最 好 的 值 附 近 展 开 一 轮 更 精细 的 网 格 搜 
索 ， 这 样 通 闻 会 快 一 些 。 多 了 解 每 个 超 参数 实际 上 是 用 来 做 什么 的 ， 有 
助 于 你 在 超 参数 空间 层 正确 搜索 。 


添加 相似 特征 


解决 非 线 性 问题 的 另 一 种 技术 是 添加 相似 特征 。 这 些 特征 经 过 相似 
函数 计算 得 出 ， 相 似 函 数 可 以 测量 每 个 实例 与 一 个 特定 地 标 
(landmark) 之 间 的 相似 度 。 以 前 面 提 到 过 的 一 维 数据 集 为 例 ， 在 x1=-2 
和 x1=1 处 添加 两 个 地 标 ( 见 图 5-8 中 的 左 图 ) 。 接 下 来 ， 我 们 采用 高 斯 
径 癌 基 函 数 (RBF) 作为 相似 函数 ，y=0.3《〈 见 等 式 5-1) 。 


公式 5-1: 高 斯 RBF 


by(x,€) = exp(-Y| -人 站) 


这 是 一 个 从 0《〈 离 地 标 差 得 非常 远 ) 到 1《〈 跟 地 标 一 样 ) 变化 的 钟 形 
函数 。 现 在 我 们 准备 计算 新 特征 。 例 如 ， 我 们 看 实例 xi1=-1: 它 与 第 一 
个 地 标的 距离 为 1， 与 第 二 个 地 标的 距离 为 2。 因 此 它 的 新 特征 为 
Xx2=eps 〈-0.3x12) s%0.74，x3s=eps〈-0.3x22) s0.30。 图 5-8 的 右 图 显示 了 
《去 除了 原始 特征 ) ， 现 在 你 可 以 看 出 ， 数 据 呈 线性 可 
分 疯 的 了 。 
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图 5-8: 使 用 高 斯 RBF 的 相似 特征 








你 可 能 想 问 怎么 选择 地 标 呢 ? 最 简单 的 方法 是 在 数据 集 里 每 一 个 实 
例 的 位 置 上 创建 一 个 地 标 。 这 会 创造 出 许多 维度 ， 因 而 也 增加 了 转换 后 
的 训练 集 线 性 可 分 离 的 机 会 。 缺 点 是 ， 一 个 有 m 个 实例 n 个 特征 的 训练 
集会 被 转换 成 一 个 m 个 实例 mm 个 特征 的 训练 集 〈 假 设 抛 寞 了 原始 特 
征 )。 如 果 训 练 集 非常 大 ， 那 束 会 得 到 同样 大 数量 的 特征 。 


高 斯 RBF 核 函数 


与 多 项 式 特征 方法 一 样 ， 相 似 特征 法 也 可 以 用 任意 机 器 学 习 算 法 ， 
但 是 要 计算 出 所 有 附加 特征 ， 其 计算 代价 可 能 非常 昂贵 ， 尤 其 是 对 大 型 
训练 集 来 说 。 然 而 ， 核 技巧 再 一 次 施展 了 它 的 SVM 魔术 : 它 能 够 产生 的 
结果 就 跟 添 加 了 许多 相似 特征 一 样 ， 但 实际 上 也 并 不 需要 添加 。 我 们 来 
使 用 SVC 类 试 试 高 斯 RBF 核 : 























rbf_kernel_svm_clf = Pipeline(( 
("scaler", StandardSscaler()), 
("svm_cilf", SVC(kernel="rbf", gamma=5, C=0.001)) 


) ) 
rbf_kernel_ svm cilf.fit(X, y) 





图 5-9 的 左下 方 显示 了 这 个 模型 。 其 他 图 显示 了 超 参 数 gamma () 
和 C 使 用 不 同 值 时 的 模型 。 增 加 gamma 值 会 使 钟 形 曲线 变 得 更 窄 〈 图 5-8 
的 左 图 ) ， 因 此 每 个 实例 的 影响 范围 随 之 变 小 : 决策 边界 变 得 更 不 规 
则 ， 开 始 围 着 单个 实例 绕 弯 。 反 过 来 ， 减 小 gamma 值 使 钟 形 曲线 变 得 更 
宽 ， 因 而 每 个 实例 的 影响 范围 增 大 ， 决 策 边界 变 得 更 平坦 。 所 以 就 像 是 
一 个 正则 化 的 超 参 数 ， 模 型 过 上 度 拟 合 ， 束 降低 它 的 值 ， 如 果 拟 合 不 足 则 
提升 它 的 值 〈 类 似 超 参数 C) 。 


还 有 一 些 其 他 较 少 用 到 的 核 函 数 ， 例 如 专门 针对 特定 数据 结构 的 核 
函数 。 字 符 串 核 营 用 于 文本 文档 或 是 DNA 序 列 《 如 使 用 字符 串 子 序列 核 
或 是 基于 莱 文 斯 坦 距 离 的 核 函 数 ) 的 分 类 。 
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图 5-9: 使 用 RBF 核 的 SVM 分 类 器 





仁 有 这 么 多 的 核 函 数 ， 该 如 何 决 定 使 用 哪 一 个 呢 ? 有 一 个 经 验 法 
则 是 ， 永 远 先 从 线性 核 函 数 开始 尝试 (要 记 住 ，LinearSVC 比 

SVC (kernel="]linear")〉 快 得 多 ) ， 特 别 是 训练 集 非常 大 或 特征 非常 多 的 
时 候 。 如 果 训 练 集 不 太 大 ， 你 可 以 试 试 高 斯 RBF 核 ， 大 多 数 情 况 下 它 都 
非常 好 用 。 如 果 你 还 有 多 余 的 时 间 和 计算 能 力 ， 你 可 以 使 用 交叉 验证 和 
网 格 搜索 来 答 试 一 些 其 他 的 核 函数 ， 特 别 是 那些 专门 针对 你 的 数据 集 数 
据 结构 的 核 函数 。 


计算 复杂 度 


liblinear 库 为 线性 SVM 实现 了 一 个 优化 算法 ， 钙 LinearSVC 正 是 基于 
该 库 的 。 这 个 算法 不 支持 核 技 巧 ， 不 过 它 与 训练 实例 的 数量 和 特征 数量 
几乎 呈 线 性 相关 : 其 训练 时 间 复 杂 度 大 致 为 O (mxn) 。 


如 果 你 想 要 非常 高 的 精度 ， 算 法 需要 的 时 间 更 长 。 它 由 容 兰 超 参数 
(在 Scikit-Leam 中 为 tol〉 来 控制 。 大 多 数 分 类 任务 中 ， 默 认 的 容 差 束 够 
1 





SVC 则 是 基于 libsvm 库 的 ， 这 个 库 的 算法 支持 核 技 巧 。 乌 训练 时 间 
复杂 度 通 常 在 O (mxn) 和 O (m3xn) 之 间 。 很 不 各 ， 这 意味 着 如 果 训 
练 实例 的 数量 变 大 例如 上 十 万 个 实例 ) ， 它 将 会 慢 得 可 民 ， 所 以 这 个 
算法 完美 适用 于 复杂 但 是 中 小 型 的 训练 集 。 但 是 ， 它 还 是 可 以 良好 适应 
地 特征 数量 的 增加 ， 特 别 是 应 对 稀 玻 特征 〈 即 ， 每 个 实例 仪 有 少量 的 非 
零 特 征 ) 。 在 这 种 情况 下 ， 算 法 复杂 度 大致 与 实例 的 平均 非 零 特征 数 成 
比例 。 表 5-1 比 较 了 Scikit-Learn 的 SVM 分 类 器 类 别 。 





表 5-1: 用 于 SVM 分 类 的 Scikit-Learn 类 的 比较 





时 间 复杂 层 是 否 支 持 核 外 ”是否 需 要 编 放 。“ 核 技 蕊 
LinearSVC O(mXn) 下 是 个 
90DC13asSifier O(mXn) 十 局 台 
SVC O(nm Xnto Om Xn) 殖 是 是 


“针对 大 型 线性 SVM 的 双 坐 标 下 降 法 ”(“A Dual Coordinate Descent 
Method for Large-scale Linear SVM, ”) ， Lin 等 人 (2008) 。 
[21 “序列 最 小 优化 ”(Sequential Minimal Optimization) ，J.Platt(1998)。 


SVM 回 归 


正如 前 面 提 到 的 ，SVM 算 法 非常 全 面 : 它 不 仅 文 持 线性 和 非 线性 分 
类 ， 而 且 还 支持 线性 和 非 线性 回归 。 诀 容 在 于 将 目标 反 转 一 下 : 不 再 是 
答 试 拟 合 两 个 类 别 之 间 可 能 的 最 宽 的 街道 的 同时 限制 间隔 违例 ，SVM 回 
归 要 做 的 是 让 尽 可 能 多 的 实例 位 于 街道 上 ， 同 时 限制 间隔 违例 (也 就 是 
不 在 街道 上 的 实例 ) 。 街 道 的 宽度 由 超 参数 se 控制。 图 5-10 显 示 了 用 随 
机 线性 数据 训练 的 两 个 线性 SYM 回归 模型 ， 一 个 间隔 较 大 (e 二 1.5) ， 
男 一 个 间隔 较 小 (e 二 0.5)。 
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图 5-10: SVM 回归 


在 间隔 内 添加 更 多 的 实例 不 会 影响 模型 的 预测 ， 所 以 这 个 模型 被 称 
为 e 不 敏感 。 


你 可 以 使 用 Scikit-Learn 的 LinearSVR 类 来 执行 线性 SVM 回归 。 以 下 
代码 生成 如 图 5-10 左 图 所 示 的 模型 〈 训 练 数据 需要 先 缩放 并 集中 ) : 


from sklearn.svm :Import LinearSVR 


svm_reg = LinearSVR(epsilon=1.5) 
svm_reg.fit(X, y) 





要 解决 非 线 性 回归 任务 ， 可 以 使 用 核 化 的 SVM 模 型 。 例 如 ， 图 5-11 
显示 了 在 一 个 随机 二 次 训练 集 上 ， 使 用 二 阶 多 项 式 核 的 SVM 回 归 。 左 图 
几乎 没有 正则 化 《C 值 很 大 ) ， 右 图 则 过 度 正 则 化 《C 值 很 小 ) 。 


degree=2, C=100, e=0.1 i (degree=2, C=0.01, e=0.1 











图 5-11: 使 用 二 阶 多 项 式 核 的 SVM 回归 


以 下 代码 使 用 Scikit-Learn 的 SVR 类 (支持 核 技 巧 ) 生成 如 网 5-11 左 
图 所 示 的 模型 。SVR 类 是 SVC 类 的 回归 等 价 物 ，LinearSVR 类 也 是 
LinearSVC 类 的 回归 等 价 物 。LinearSVR 与 训练 集 的 大 小 线性 相关 ( 跟 
LinearSVC 一 样 ) ， 而 SVR 则 在 训练 集 变 大 时 ， 变 得 很 慢 (SVC 也 是 一 
样 ) 。 








from sklearn.svm :Import SVR 


svm_poly_reg = SVR(kernel="poly", degree=2, C=100, epsilon=0.1) 
svm_poly_reg.fit(X, y) 





SVM 也 可 用 于 异常 值 检 测 : 详细 信息 请 参考 Scikit-Learn 文 档 。 


1 原理 


本 节 将 会 介绍 SVM 如 何 进行 预测 ， 以 及 它们 的 训练 算法 是 如 何 工作 
的 ， 从 线性 SVM 分 类 右 开 始 。 如 果 你 刚刚 开始 接触 机 右 学 习 ， 可 以 安全 
地 跳 过 本 节 ， 直 接 进 入 本 章 末 尾 的 练习 ， 等 到 想 要 更 深入 地 了 解 SVM 时 
再 回来 也 不 述 。 


首先 ， 说 明 一 下 符号 : 在 第 4 章 里 ， 我 们 使 用 过 一 个 约定 一 一 将 所 
有 模型 参数 放 在 一 个 向 量 9 中 ， 包 括 偏 置 项 90， 以 及 输入 特征 的 权重 091 到 
9,， 同 时 在 所 有 实例 中 添加 偏 置 项 xo0=1。 在 本 章 中 ， 我 们 将 会 使 用 另 一 
个 约定 ， 在 处 理 SVM 时 它 更 为 方便 (也 更 常见 ) : 偏 置 项 表示 为 b， 特 
征 权 重 向 量 表示 为 w， 同 时 输入 特征 癌 量 中 不 添加 偏 置 特征 。 


决策 函数 和 预测 


线性 SVM 分 类 器 通过 简单 地 计算 决策 函数 wT.x+b=wixi+..+wuxntb 


来 预测 新 实例 x 的 分 类 。 如 果 结 果 为 正 ， 则 预测 类 别 了 是 正 类 (1) ,不 
然则 预测 其 为 负 类 〈0) ， 见 公式 5-2。 


公式 5-2: 线性 SVM 分 类 器 预测 


0ifw :x+b <0, 


lifw .x+b=0 


图 5-12 显 示 了 图 5-4 右 侧 的 模型 所 对 应 的 决策 函数 ， 数据 集 包 含 两 个 
特征 〔 论 瓣 宽 上 度 和 长 度 ) ， 所 以 是 一 个 二 维 平 面 。 决 策 边界 是 决策 函数 
等 于 0 的 点 的 集合 : 它 是 两 个 平面 的 交集 ， 也 就 是 一 条 直线 (加 粗 实 线 
所 示 ) 。 出 








y = 





图 5-12: 高 尾 花 数据 集 的 决 倘 函数 


虚线 表示 决策 函数 等 于 1 或 -1 的 点 : 它们 互相 平行 ， 并 且 与 决策 边 
界 的 距离 相等 ， 从 而 形成 了 一 个 间隔 。 训 练 线性 SVM 分 类 器 即 意味 着 找 
到 w 和 b 的 值 ， 从 而 使 这 个 间隔 尽 可 能 宽 的 同时 ， 避 免 《 硬 间隔 ) 或 是 
限制 “ 软 间隔 ) 间 隅 违例 。 


0 更 概括 地 说 ， 当 有 n 个 特征 时 ， 决 集 函 数 是 一 个 n 维 的 超 平 面 ， 决 集 
边界 是 一 个 (n-1) 维 的 超 平面 。 





训练 目标 


思考 一 下 决策 函数 的 斜率 : 它 等 于 权重 癌 量 的 范 数 ， 即 ||lw||。 如 果 
我 们 将 斜率 除 以 2?， 那 么 决策 函数 等 于 +1 的 点 也 将 变 得 离 决 集 函 数 两 倍 
远 。 也 残 是 说 ， 将 斜率 除 以 2， 将 会 使 间隔 乘 以 2。 也 许 2D 图 更 容易 将 
其 可 视 化 ， 见 图 5-13。 权 重 向 量 w 越 小 ， 间 隔 越 大 。 
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图 5-13: 权重 向 量 越 小 ， 间 隔 越 大 


所 以 我 们 要 最 小 化 |wl 来 得 到 尽 可 能 大 的 间隔 。 但 是 ， 如 果 我 们 想 
避免 任何 间隔 违例 〈 硬 间隔 ) ， 那 么 就 要 使 所 有 正 类 训练 集 的 决策 函数 
大 于 1， 负 类 训练 集 的 决策 函数 小 于 -1。 如 果 我 们 定义 ， 实 例 为 负 类 
(如 果 y “i? =0) 时 ，t “=-1; 实例 为 正 类 〈 如 果 y “=1) 时 ，t 
=1。 那 么 我 们 就 可 以 将 这 个 约束 条 件 表 示 为 : 对 所 有 实例 来 说 ，t 


CwI.X MD +b) >1。 


因此 ， 我 们 可 以 将 硬 间隔 线性 SYM 分 类 器 的 目标 ， 看 作 一 个 约束 优 
化 问题 ， 如 公式 5-3 所 示 。 


公式 5-3: 硬 间 隔 线性 SVM 分 类 器 的 目标 








最 小 化 二 W7 
WwW,b ) 


使 得 1 (Ww ,x + 的 >1(i =1,2,,m) 


信人 最小 化 的 是 wwz 它 等 于 ||lw||%/2， 而 不 是 最 小 化 |lw||。 这 
古 因为 ， 二 者 虽然 会 得 到 同样 的 结果 (因为 让 某 个 值 最 小 的 w 和 b， 同 
样 也 使 其 平方 的 一 半 最 小 ) ， 但 是 ||wll”2 有 一 个 简单 好 用 的 导数 〈 就 是 
w) ， 而 ||lwl| 在 w=0 时 ， 是 不 可 微 的 。 优 化 算法 在 可 微 函 数 上 的 工作 效果 
要 好 得 多 。 

要 达到 软 间隔 的 目标 ， 我 们 需要 为 每 个 实例 引入 一 个 松弛 变量 z 富 
>0， 内 tc (i) 衡量 的 是 第 i 个 实例 多 大 程度 上 人 允许 间隔 违例 。 那 么 现在 我 
们 有 了 两 个 互相 冲突 的 目标 : 使 松弛 变量 越 小 越 好 从 而 减少 间隔 违例 ， 
同时 还 要 使 ww/2 最 小 化 以 增 大 间隔 。 这 正 是 超 参数 C 的 用 武之 地 : 人 允 
许 我 们 在 两 个 目标 之 间 权 衡 。 公 式 5-4 给 出 了 这 个 约束 优化 问题 。 


公式 5-4: 软 间隔 线性 SVM 分 类 器 目标 


| in ” 
最 小 化 ma C1 


Wht 











"| ) ) 
使 得 1 (Ww ‘x +0)>1 -下 用 天 > 
二 次 规划 

便 间 隔 和 软 间隔 问题 都 属于 线性 约束 的 凸 二 次 优化 问题 。 这 类 问题 


被 称 为 二 次 规划 《〈QP) 问题 。 要 解决 二 次 规划 问题 有 很 多 现成 的 求解 
器 ， 使 用 到 的 技术 各 不 相同 ， 这 些 不 在 本 书 的 讨论 范围 之 内 。 包 公式 5- 





5 给 出 的 是 问题 的 一 般 形 式 。 


公式 5-5: 二 次 规划 问题 


RNP "Hep+f ep 


' 
使 得 A.p<Db 
p 是 一 个 nn 维 向 量 (n 为 参数 数量 ) 
再 是 一 个 由 Xn, 算 阵 
其 中 让 是 一 个 册 维 向 量 
A 是 一 个 nxn, 算 阵 (n, 为 约束 数量 ) 


b 趣 一 个 n 维 问 量 


注意 表达 式 A:p<b 实 际 上 定义 了 n 个 约束 : 对 于 i=1，2,，...，n， 
Dua <b “7 ， 其 中 a “? 是 包含 A 的 第 i 行 元 素 的 向 量 ， 而 b “1? 是 b 的 第 
i 企 元 这， 

可 以 轻松 验证 一 下 ， 如 果 你 把 二 次 规划 参数 按 以 下 方式 设置 ， 是 否 
能 够 实现 硬 间 隔 线性 SVM 分 类 器 的 目标 : 


np=n+1， 其 中 n 为 特征 数量 (+1 是 偏 置 项 )。 





-n=m， 其 中 m 是 训练 实例 的 数量 。 


-H 是 n,xn, 的 单位 矩阵 ， 但 是 顶 左 单元 格 为 零 ( 为 了 忽略 偏 置 
项 ) 。 


f=0， 一 个 全 是 0 的 n, 维 向 量 。 
b=1， 一 个 全 是 1 的 n. 维 向 量 。 


We (7) 、 i 
.a 一 -1 ， 其 中 评 等 于 x 人 ， 除 了 一 个 额外 的 偏 置 特征 X01 


所 以 ， 要 训练 硬 间 隔 线性 SVM 分 类 器 ， 有 一 种 办 法 是 直接 将 上 面 的 
参数 用 在 一 个 现成 的 二 次 规划 求解 器 上 。 得 到 的 向 量 p 将 会 包括 偏 置 项 
b=po， 以 及 特征 权重 w=p;，i=1，2，...，m。 类 似 地 ， 你 也 可 以 用 二 次 
规划 求解 器 来 解决 软 间隔 问题 〈 见 本 章 末 尾 练习 ) 。 


但 是 ， 为 了 运用 核 技 巧 ， 接 下 来 我 们 将 要 看 一 个 不 同 的 约束 优化 问 


题 。 
对 侦 问 题 


针对 一 个 给 定 的 约束 优化 问题 ， 称 之 为 原始 问题 ， 我 们 常常 可 以 用 
为 一 个 不 同 的 ， 但 是 与 之 密切 相关 的 问题 来 表达 ， 这 个 问题 我 们 称 之 为 
对 偶 问 题 。 通 常 来 说 ， 对 侦 问 题 的 解 只 能 算是 原始 问题 的 解 的 下 限 ， 但 
征 在 某 些 情况 下 ， 它 也 可 能 跟 原 始 问题 的 解 完 全 相同 。 笠 运 的 是 ，SVM 
问题 刚好 就 满足 这 些 条 件 ， 乌 所 以 你 可 以 选择 是 解决 原始 问题 还 是 对 偶 
问题 ， 二 者 解 相 同 。 公 式 5-6 给 出 了 线性 SVM 目 标的 对 侦 形 式 〈( 如 果 你 
对 如 何 从 原始 问题 导出 对 偶 问 题 感 兴趣 ， 请 参阅 附录 C) 。 


公式 5-6: 线性 SVM 目标 的 对 偶 形 式 

















| Mm Mm | 
最 小 化 了 》 gr ot ge | YU 已 》 i 
| j=1 


= 1=1 


(1) ' 
使 得 w > 0(i = 1,2,m) 
一 旦 得 到 使 得 该 等 式 最 小 化 (使 用 二 次 规划 求解 器 ， 的 向 量 2， 号 
可 以 使 用 公式 5-7 来 计算 使 原始 问题 最 小 化 的 WW 和 2。 
公式 5-7: 从 对 侦 问 题 到 原始 问题 


当 训练 实例 的 数量 小 于 特征 数量 时 ， 解 决 对 偶 问题 比 原始 问题 更 快 
速 。 更 重要 的 是 ， 它 能 够 实现 核 技巧 ， 而 原始 问题 不 可 能 实现 。 这 个 核 
技巧 到 底 是 什么 呢 ? 

核 化 SVM 

假设 你 想 要 将 一 个 二 阶 多 项 式 转换 为 一 个 二 维 训练 集 〈 例 如 卫星 训 
练 集 ) ， 然 后 在 转换 训练 集 上 训练 线性 SVM 分 类 器 。 这 个 二 阶 多 项 式 的 
映射 函数 《如 公式 5-8 所 示 。 








公式 5-8: 二 阶 多 项 式 映 射 


2 
| 
Xl 
小 X) = 4 V2X Wo 
六 | 
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注音 转换 后 的 向 量 是 三 维 的 而 不 是 二 维 的 。 现 在 我 们 来 看 看 ， 如 果 
我 们 应 用 这 个 二 阶 多 项 式 映射 ， 两 个 二 维 癌 量 a 和 b 会 发 生 什么 变化 ， 然 
后 计算 转换 后 两 个 同 量 的 点 积 (参见 公式 5-9〉。 


公式 5-9: 二 阶 多 项 式 映 射 的 核 技巧 


a | 六 
b(a) + b(b)= oo | AD [= ob + 2ab a,b, + ob 
0 b 
上 7 
7 b | 下 站 
i | 呈 | | = (a by 
0 b) 








怎么 样 ? 转换 后 向 量 的 点 积 等 于 原始 向 量 的 点 积 的 平方 ， 多 (a) T. 
8 (pb) = (ar.b) 2。 


关键 点 来 了 :， 如 果 将 转换 映射 多 应 用 于 所 有 训练 实例 ， 那 么 对 偶 问 

en 如 果 是 
a) 

公式 5-8 所 定义 的 二 阶 多 项 式 转换 ， 那 么 可 以 直接 用 (X “XX “来 将 
代 这 个 转换 向 量 的 点 积 。 所 以 你 根本 不 需要 转换 训练 实例 ， 只 需 将 公式 
5-6 里 的 点 积 换 成 点 积 的 平方 即 可 。 如 果 你 不 嫌 麻 烦 ， 可 以 动手 将 训练 
集 进 行 转换 ， 然 后 拟 合 线性 SVM 算法 ， 你 会 发 现 ， 结 果 一 模 一 样 。 但 是 
这 个 技巧 大 大 提高 了 整个 过 程 的 计算 效率 。 这 就 是 核 技巧 的 本 质 。 

函数 K 《ab) = 《ab) “ 补 称 为 一 阶 多 项 式 核 。 在 机 器 学 习 里 ， 
核 是 能 够 仅 基于 原始 向 量 a 和 b 来 计算 点 积 (a) T.4 (b) 的 函数 ， 它 


不 需要 计算 (甚至 不 需要 知道 ) 转换 函数 。 公 式 5-10 列 出 了 一 些 最 党 
用 的 核 函 数 。 


公式 5-10: 常用 核 函 数 
线性 核 函 数 , K(a,b) = 
多 项 式 核 函 数 : K(a,b) = (ya ，b + 站) 
高 斯 RBF 校 函 数 ; K(a,b) = exp( -ya - 
Sigmoid 核 函 数 , K(a， ee b + 7) 


Mercer 定 理 


根据 Mercer 定 理 ， 如 果 函 数 K (a，b) 符合 几 个 数学 条 件 也 就 
是 Mercer 条 件 (K 必 须 是 连续 的 ， 并 日 在 其 参数 上 对 称 ， 所 以 K (a， 


b) = 区 (b，a》， 等 等 ) ， 则 存在 函数 9 将 a 和 b 映 射 到 另 一 空间 (可 能 
是 更 高 维度 的 空间 ) ， 使 得 K (a, b) 二 (a) T. (5b) 。 所 以 你 可 
以 将 K 用 作 核 函数 ， 因 为 你 知道 是 存在 的 ， 即 使 你 不 知道 它 是 什么 。 








a 











对 于 高 斯 RBF 核 函数 ， 可 以 看 出 ， 《实际 上 将 每 个 训练 实例 映射 到 了 一 
个 无 限 维 空间 ， 幸 好 不 用 执行 这 个 映射 。 

注意 ， 也 有 一 些 常 用 的 核 函 数 〈 如 Sigmoid 核 函数 ) 不 符合 Mercer 
条 件 的 所 有 条 件 ， 但 是 它们 在 实践 中 通常 也 表现 不 错 。 

还 有 一 个 未 了 结 的 问题 我 们 需要 说 明 。 公 式 5-7 显 示 了 用 线性 SVM 
分 类 器 如 何 从 对 偶 解 走 到 原始 解 ， 但 是 如 果 你 应 用 了 核 技巧 ， 最 终 得 到 
的 是 包含 (x GD ) 的 方程 。 而 货 的 维度 数量 必须 与 (x GD ) 相 
同 ， 后 者 很 有 可 能 是 巨大 甚至 是 无 穷 大 的 ， 所 以 你 根本 没 法 计算 。 可 是 
不 知道 候 该 如 何 做 出 预测 呢 ? 你 可 以 将 公式 5-7 中 姐 的 公式 插入 新 实例 
x 〇 ) 的 决策 函数 中 ， 这 样 就 得 到 了 一 个 只 包含 输入 向 量 之 间 点 积 的 公 
式 。 这 时 你 就 可 以 再 次 运用 核 技巧 了 〈 见 公式 5-11) 。 


公式 5-11: 使 用 核 化 SVM 做 出 预测 


























hn 

A(i) (0) yar(i) wn) 个 
at KX X")+) 
|=] 
a(i) >0 


注意 ， 因 为 仅 对 于 支持 向 量 才 有 a “1? xz0， 所 以 预测 时 ， 计 算 新 输 
入 向 量 x “的 点 积 ， 使 用 的 仅仅 是 支持 向 量 而 不 是 全 部 训练 实例 。 当 
然 ， 你 还 需要 使 用 同样 的 技巧 来 计算 偏 置 项 ( 见 公式 5-12)。 


公式 5-12: 使 用 核 技巧 计算 侦 置 项 

















如 果 你 现在 开始 觉得 头痛 ， 完 全 正常 : 这 正 是 核 技巧 的 副作用 。 
在 线 SVM 


在 本 章 结束 之 前 ， 我 们 快速 了 解 一 下 在 线 SVM 分 类 器 (回想 一 下 ， 
在 线 学 习 意味 着 增 量 学 习 ， 通 常 就 是 新 实例 到 来 的 时 候 学 习 ) 。 


对 线性 SVM 分 类 器 来 说 ， 方 法 之 一 是 使 用 梯度 下 降 ， 使 从 原始 问题 
导出 的 成 本 函数 〈 见 公式 5-13) 最 小 化 。 但 不 笠 的 是 ， 这 种 方法 的 收敛 
速度 比 二 次 规划 方法 要 慢 得 多 。 


公式 5-13: 线性 SVM 分 类 器 成 本 函数 


Nn 


J(w,b) = mt y+ CO, mos(0,l a 


成 本 函数 中 的 第 一 项 会 推动 模型 得 到 一 个 较 小 的 权重 癌 量 w， 从 而 
使 间隔 更 大 。 第 二 项 则 计算 全 部 的 间隔 违例 。 如 果 没 有 一 个 示例 位 于 街 
道 之 上， 并且 都 在 街道 正确 的 一 边 ， 那 么 这 个 实例 的 间隔 违例 为 0， 如 
不 然 ， 则 该 实例 的 违例 大 小 与 其 到 街道 正确 一 边 的 距离 成 正比 。 所 以 将 
这 个 项 最 小 化 ， 能 够 保证 模型 使 间隔 违例 尽 可 能 小 ， 也 尺 可 能 少 。 


Hinge 损 失 函 数 


函数 max (0，1-t) 被 称 为 hinge 损 失 函 数 〈 如 下 图 所 示 ) 。 当 位 1 
时 ， 函 数 等 于 0。 如 果 t<1， 其 导数 (斜率 ) 等 于 -1， 如 果 t>1， 则 导数 




















(斜率) 为 0，t=1， 时 ， 函 数 不 可 导 。 但 是 ， 在 t=0 处 可 以 使 用 任意 次 导 
数 你 还 是 可 以 使 用 梯度 下 降 ， 惑 跟 Lasso 回 
归 一 样 。 


— Max(0,1-7) 





在 线 SVM 也 可 以 实现 核 技巧 ， 可 参考 “Incremental and Decremental 
SVM Learning” (http://goo.g/JEqVui) 多， 以 及 “Fast Kernel Classifiers 
with Online and Active Learning”(https://goo.gVhsoUHA) 印 。 但 是 这 些 
是 在 Matlab 和 C++ 上 实现 的 。 对 于 大 规模 非 线 性 问题 ， 你 可 能 需要 使 用 
神经 网 络 〈 本 书 第 二 部 分 ) 。 


[1 Zeta〈Z) 是 希腊 字母 的 第 8 个 字母 。 

[2] 要 了 解 更 多 关于 二 次 规划 的 信息 ， 可 以 从 阅读 Stephen Boyd 和 Lieven 
Vandenberghe 的 “Convex Optimization”( 剑 桥 大 学 出 版 社 ，2004 年 ) 开 
始 ， 或 者 是 观看 Richard Brown 的 系列 讲座 。 

[3] 目标 函数 是 凸 函 数 ， 并 且 不 等 式 约束 是 连续 可 微 的 凸 函 数 。 

[4] “Incremental and Decremental Support Vector Machine 
Learning”G.Cauwenberghs, T.Poggio (2001). 

[5| “Fast Kernel Classifiers with Online and Active Learning“A.Bordes， 
S.Ertekin, J.Weston, L.Bottou (2005) . 








氏 司 
1 支持 向 量 机 的 基本 思想 是 什么 ? 
2. 什 么 是 支持 向 量 ? 
3. 使 用 SVM 时 ， 对 输入 值 进行 缩放 为 什么 重要 ? 
4.SVM 分 类 器 在 对 实例 进行 分 类 时 ， 会 输出 信心 分 数 么 ? 概率 呢 ? 


5. 如 果 训 练 集 有 上 和 干 万 个 实例 和 几 百 个 特征 ， 你 应 该 使 用 5VM 原 始 
问题 还 是 对 偶 问 题 来 训练 模型 ? 


6. 假 设 你 用 RBF 核 训 练 了 一 个 SVM 分 类 器 ， 看 起 来 似乎 对 训练 集 拟 
合 不 足 ， 你 应 该 提升 还 是 降低 y (gamma) ? C 呢 ? 


7. 如 果 使 用 现成 二 次 规划 求解 器 ， 你 应 该 如 何 设置 QP 参数 (H、f、 
A 和 b) ， 来 解决 软 间隔 线性 SVM 分 类 器 问题 ? 


8. 在 一 个 线性 可 分 离 数 据 集 上 训练 LinearSVC。 然 后 在 同一 数据 集 
上 训练 SVC 和 SGDClassifier。 看 看 你 是 否 可 以 用 它们 产 出 大 致 相同 的 模 
型 。 

9. 在 MNIST 数 据 集 上 训练 SVM 分 类 堪 。 由 于 SVM 分 类 器 是 个 二 元 分 
类 器 ， 所 以 你 需要 使 用 一 对 多 来 为 10 个 数字 进行 分 类 。 你 可 能 还 需要 使 
用 小 型 验证 集 来 调整 超 参 数 以 加 快 进度 。 最 后 看 看 达到 的 精度 是 多 少 ? 

10. 在 加 州 住房 数据 集 上 训练 一 个 SVM 回归 模型 。 


以 上 练习 的 解答 可 从 附录 A 中 获得 。 


第 6 和 章 ” 雇 策 树 


与 VM 一样 ， 决 朱 树 也 是 一 种 多 功能 的 机 器 学 习 算 法 ， 它 可 以 实现 
分 类 和 回归 任务 ， 甚 至 是 多 输出 任务 。 它 们 功能 强大 ， 能 够 拟 合 复杂 的 
数据 集 。 例 如 ， 在 第 2 章 中 ， 我 们 曾经 在 加 州 住房 数据 集 上 训练 过 一 个 
DecisionTreeRegressor 模 型 ， 完 美 拟 合 数据 集 〈 实 际 上 过 度 拟 合 ) 。 


决策 树 同 时 也 是 随机 森林 《参见 第 7 章 ) 的 基本 组 成 部 分 ， 后 者 是 
现今 最 强大 的 机 器 学 习 算 法 之 一 。 


在 本 章 中 ， 首 先 ， 我 们 会 讨论 如 何 对 决策 树 进行 训练 、 可 视 化 和 预 
测 ， 然 后 介绍 Scikit-Leam 的 CART 训 练 算法 ， 讨 论 如 何 对 决策 树 进行 正 
则 化 并 将 其 用 于 回归 任务 ， 最 后 ， 我 们 会 谈 一 谈 决 策 树 的 部 分 限制 。 


决 东 树 训 练 和 可 视 化 


要 了 解决 策 树 ， 让 我 们 先 构 建 一 个 决 集 树 ， 看 看 它 是 如 何 做 出 预测 
的 。 下 面 的 代码 在 高 尾 花 数据 集 ( 见 第 4 草 ) 上 训练 了 一 个 


DecisionTreeClassifier: 





from sklearn.datasets import load iris 
from sklearn.tree import DecisionTreeClassifier 


iris = load iris() 
X = iris.data[:, 2:] # petal length and width 
y = iris.target 


tree_clf = DecisionTreeClassifier(max_depth=2) 
tree_clf.fit(X，y) 





要 将 决策 树 可 视 化 ， 首 先 ， 使 用 export_graphviz 〈) 方法 输出 一 个 
图 形 定义 文件 ， 命 名 为 iris_tree.dot: 





from sklearn.tree Import export_graphviz 


export_graphviz( 
tree_clf， 
out_file=image_path("iris tree.dot"), 
feature_names=iris.feature_names[2:], 
class_names=iris.target_names, 
rounded=True, 
filled=True 





然后 ， 可 以 使 用 graphviz 包 山中 的 dot 命 令 行 工具 将 这 个 .dot 文 件 转换 
0 
文件 : 





$ dot -Tpng iris_ tree.dot -0 iris tree.png 





你 的 第 一 个 决策 树 如 图 6-1 所 示 。 


petal length (cm) <= 2.45 
gni=0.6667 
samples = 150 

Value = [50, 50, 50] 

Class = setosa 










petal width (cm) <= 1.75 
gini=0.5 
samples = 100 
value = [0, 50, 50] 
Class = versicolor 








Qini= 0.168 
samples = 54 
value = [0, 49, 95] 
Class = versicolor 








图 6-1: 高 尾 花 决策 树 
[1 graphviz 是 一 个 开源 图 形 可 视 化 软件 包 ， 可 从 http://wwwgraphviz.org/ 
获取 。 


做 出 预测 


我 们 来 看 看 图 6-1 中 的 树 是 如 何 做 出 预测 的 。 如 果 你 找到 了 一 条 高 
尾 花 ， 想 要 将 其 归 类 ， 那 么 从 根 节 点 (深度 0， 位 于 顶部 ) 开始 : 这 条 
花 的 花瓣 长 度 是 否 小 于 2.45 厘 米 ? 如 果 是 ， 则 回 下 移动 到 根 的 左 侧 子 节 
点 (深度 1， 左 ) 。 本 例 中 ， 这 是 一 个 叶 节 点 〈( 即 没有 任何 子 节点 )〉， 
所 以 它 不 再 继续 提出 问题 ， 你 可 以 直接 查看 这 个 节点 的 预测 类 别 ， 也 就 
是 说 ， 决 策 树 预 测 你 的 这 条 花 是 Setosa 意 尾 花 〈class=setosa) 。 


假设 你 又 找到 了 一 和 东 花 ， 但 是 这 次 的 花 办 长 度 大 于 2.45 厘 米 。 你 必 
须 移动 到 根 节 点 的 右 侧 子 节点 《深度 1， 右 ) ， 该 市 点 不 是 叶 市 点 ， 所 
以 它 提出 另 一 个 问题 : 花 办 宽度 是 否 小 于 1.75 厘 米 ? 如 果 是 ， 那 这 条 人 花 
最 有 可 能 是 Versicolor 总 尾 花 《深度 2， 左 ) ; 如 果 不 是 ， 那 就 可 能 是 
Virginica 塌 尾 花 〈 深 度 2， 右 ) 。 就 是 这 么 简单 。 



































办 志 策 村 的 特质 之 一 就 是 它们 需要 的 数据 准备 工作 非常 少 。 特别 
是 ， 完 全 不 需要 进行 特征 缩放 或 集中 。 


节点 的 samples 属 性 统计 它 应 用 的 训练 实例 数量 。 例 如 ， 有 100 个 训 
练 实例 的 花瓣 长 度 大 于 2.45 厘 米 ( 深 度 1， 石 ) ， 其 中 54 个 花瓣 宽度 小 
于 1.75 厘 米 〈 深 度 2， 左 ) 。 节 点 的 value 属 性 说 明了 该 节点 上 每 个 类 别 
的 训练 实例 数量 : 例如 ， 右 下 节点 应 用 在 0 个 Setosa 刻 尾 、1 个 Versicolor 
意 尾 和 45 个 Virginica 宜 尾 实 例 上 。 最 后 ， 节 点 的 gini 属 性 衡量 其 不 纯度 
(impurity〉: 如 果 应 用 的 所 有 训练 实例 都 属于 同一 个 类 别 ， 那 么 节点 
就 是 “ 纯 ” 的 〈gini=0) 。 例 如 ， 深 度 1 左 侧 节 点 仅 应 用 于 Setosa 况 尾 花 训 
练 实 例 ， 所 以 它 就 是 纯 的 ， 并 且 gini 值 为 0。 公 式 6-1 说 明了 第 i 个 节点 的 
基尼 系数 G; 的 计算 方式 。 例 如 ， 深 度 2 左 侧 节 点 ， 基 尼 系 数 等 于 1 
(0/54) 2 (49/54) 和 (5/54) 2s0.168。 稍 后 还 将 介绍 另 一 种 不 纯度 的 
衡量 方法 。 


公式 6-1: 基尼 不 纯度 

















n 


ci = 上 |- ,Ps 


k=.] 


Pi, k 是 第 i 企 节点 上 ， 类 别 为 k 的 训练 实例 占 比 。 


ei oom lg 的 直 Gli 该 算法 仪 生成 二 又 树 : 非 叶 节 
点 永远 只 有 两 个 子 节 点 〈 即 问题 答案 仅 有 是 或 否 ) 。 但 是 ， 其 他 算法 ， 
比如 ID3 生 成 的 决策 树 ， 其 节点 可 以 拥有 两 个 以 上 的 子 节 点 。 


图 6-2 显 示 了 决 集 树 的 决策 边界 。 加 粗 直线 表示 根 市 点 深度 0) 的 
决策 边界 ;论辩 长 上 度 =2.45 厘 米 。 因 为 左 侧 区 域 是 纯 的 “只 有 Setosa 访 尾 
化 ) ， 所 以 它 不 可 再 分 。 但 是 右 侧 区 域 是 不 纯 的 ， 所 以 深度 1 右 侧 的 市 
扩 在 花 汤 宽度 =1.75 厘 米 处 〈 虚 线 所 示 ) 再 次 分 裂 。 因 为 这 里 最 大 深度 
max_depth 设 置 为 2， 所 以 决策 树 在 此 停止 。 但 是 如 果 你 将 max_depth 设 
置 为 3， 那 么 两 个 深度 为 2 的 节点 将 各 目 再 产生 一 条 决策 边界 《点 线 所 
二 让 < 
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图 6-2: 决策 树 的 决策 边界 
模型 解释 ， 日 盒子 与 黑 盒 子 


如 你 所 见 ， 决 俩 树 是 非常 直观 的 ， 它 们 的 决策 也 很 容易 解释 ， 这 类 
模型 通常 被 称 为 日 盒 模型 。 与 之 相反 的 ， 我 们 稍 后 将 会 看 到 ， 随 机 森林 
或 是 神经 网 络 被 认为 是 一 种 黑 盒 模型 。 它 们 能 做 出 很 棒 的 预测 ， 你 也 可 
以 轻松 检查 它们 在 做 出 预测 时 执行 的 计算 ， 然而， 通 第 很 难 解释 清楚 它 
们 为 什么 做 出 这 样 的 预测 。 比 如 ， 如 果 神 经 网 络 说 茶 个 人 出 现在 一 张 图 
片上 ， 很 难 知道 它 实 际 上 是 基于 什么 做 出 的 该 预测 : 是 模型 识别 出 来 了 
这 个 人 的 眼睛 ? 嘴巴 ? 星子 ? 还 是 鞋子 ? 其 至 是 她 坐 的 沙发 ? 相反 ， 决 
朱 树 提供 了 简 蛙 好 用 的 分 类 规则 ， 需 要 的 话 ， 你 甚至 可 以 手动 应 用 这 些 
规则 例如 ， 花 的 分 类 )。 








估算 类 列 概率 


决策 树 同 样 可 以 估算 某 个 实例 属于 特定 类 别 k 的 概率 : 首先 ， 跟 随 
决策 树 找到 该 实例 的 叶 节 点 ， 然 后 返回 该 节点 中 类 别 k 的 训练 实例 占 
比 。 例 如 ， 假 设 你 发 现 一 条 花 ， 其 花 注 长 5 厘米 ， 宽 1.5 厘 米 。 相 应 的 叶 
节点 为 深度 2 左 侧 节点 ， 因 此 决策 树 输 出 如 下 概率 : Setosa 总 尾 花 ， 

0% (0/54) ; Versicolor 竟 尾 花 ，90.7% (49/54) ; Virginica 总 尾 花 ， 
9.3% 《5/54) 。 当 然 ， 如 果 你 要 求 它 预测 类 别 ， 那 么 它 应 该 输出 
Versicolor 苞 尾 花 (类 别 1) ， 因 为 它 的 概率 最 高 。 我 们 试 一 下 : 








>>> tree_clf.predict _ proba([[5, 1.5]]) 
array([[ 0. , 0.90740741, 0.09259259]]) 
>>> tree_clf.predict([[5, 1.5]]) 
array([1]) 





完美 ! 注意 ， 图 6-2 的 右 下 矩形 中 任意 点 的 估算 概率 都 是 相同 的 
一 一 比如 ， 如 果 人 花瓣 长 6 厘米 ， 宽 1.5 厘 米 ， 概 率 还 是 一 样 〈 虽 然 看 起 
来 ， 这 时 最 大 的 可 能 应 该 是 Virginica 忘 尾 花 ) 。 





CART 训 练 算法 


Scikit-Learn 使 用 的 是 分 类 与 回归 树 (Classification And Regression 
Tree， 人 简称 CART) 算法 来 训练 决策 树 〈 也 叫 作 “ 生 长 * 树 〉。 想 法 非常 
简单 : 站 先 ， 使 用 单个 特征 k 和 羡 值 t〈( 例 如， 花瓣 长 度 <2.45 厘 米 ) 将 
训练 集 分 成 两 个 子 集 。k 和 羡 值 t. 怎 么 选择 ? 答案 是 产生 出 最 纯 子 集 〈 受 
其 大 小 加 权 ) 的 kK 和 妇 就 是 经 算法 搜索 确定 的 〈t， 女 ) 。 算 法 符 试 最 小 化 
的 成 本 函数 为 公式 6-2。 


公式 6-2: CART 分 类 成 本 函数 


i lett 


LT 
J(k,t) 一 oa ( 
1 1 





right 


[Guns 入 量 左 / 右 于 入 的 不 红 
【ms 是 左 / 右 子 集 的 实例 数量 


一 旦 成 功 将 训练 集 一 分 为 二 ， 它 将 使 用 相同 的 逻辑 ， 继 续 分 裂 子 
集 ， 然 后 是 子 集 的 子 集 ， 依 次 循环 递 进 。 直 到 抵达 最 大 深度 《由 超 参 数 
max_depth 控 制 ) ， 或 是 再 也 找 不 到 能 够 降低 不 纯度 的 分 裂 ， 它 才 会 俘 
止 。 还 有 一 些 超 参数 〈 稍 后 介绍 ) 可 以 用 来 控制 附加 的 停止 条 件 
Cmin_samples_split、min_samples_leaf、min_weight_fraction_leaf 久 
max_leaf nodes) 。 








外、 如 你 所 见 CART 是 一 种 贪 禁 算 法 : 从 顶层 开始 搜索 最 优 分 
裂 ， 然 后 每 层 重复 这 个 过 程 。 几 层 分 裂 之 后 ， 它 并 不 会 检视 这 个 分 裂 的 
不 纯度 是 否 为 可 能 的 最 低 值 。 贪 梦 算 法 通常 会 产生 一 个 相当 不 错 的 解 ， 








但 是 不 能 保证 是 最 优 解 。 


而 不 幸 的 是 ， 寻 找 最 优 树 是 一 个 已 知 的 NP 完 全 问题 : 外 需要 的 时 间 
是 O (Cexp (m) ) ， 所 以 即使 是 很 小 的 训练 集 ， 也 相当 琼 手 。 这 就 是 为 
什么 我 们 必须 接受 一 个 “相当 不 错 ” 的 解 。 


[1 P 就 是 能 在 多 项 式 时 间 内 解决 的 问题 集 。NP 是 能 在 多 项 式 时 间 内 验 
证 解 正确 与 否 的 问题 集 。 如 果 一 个 问题 L 是 NP-Hard 问 题 ， 那 么 任意 一 
个 NP 问 题 都 可 以 在 多 项 式 时 间 内 被 规约 成 这 个 工 问题 。 而 NP 完 全 问题 即 
是 NP 问题 ， 叉 是 NP-Hard 问 题 。 有 一 个 数学 开放 问题 ， 即 P 是 否 等 于 
NP? 如 果 PzNP 看 起 来 很 可 能 如 此 ) ， 那 么 对 于 任何 NP 完全 问题 ， 将 
不 存在 多 项 式 算法 (可 能 量子 计算 机 除外 》。 























计算 复杂 度 


进行 预测 需要 从 根 到 叶 人 遍历 决策 树 。 通 党 来 说 ， 决 策 树 大 致 平衡 ， 
因此 遍历 决策 树 需 要 经 历 大 约 O (og，C(m) ) 个 节点 。( 注 : logs 是 以 
2 为 底 的 对 数 。 等 于 log，(Cm) =log (m) /log (2) 。) 而 每 个 节点 只 需 
要 检查 一 个 特征 值 ， 所 以 总 体 预测 复杂 度 也 只 是 O 〈logy (m) ) ， 与 特 
征 数量 无 关 。 如 此 ， 即 便 是 处 理 大 型 数据 集 ， 预 测 也 很 快 。 


但 是 ， 训 练 时 在 每 一 个 忆 点 ， 算 法 都 需要 在 所 有 样本 上 比较 所 有 特 
征 〈 如 果 设 置 了 max_features 会 少 一 些 ) 。 这 导致 训练 的 复杂 度 为 
O (nxm ”log (m) ) 。 对 于 小 型 训练 集 〈 几 千 个 实例 以 内 ) ，Scikit- 
Learn 可 以 通过 对 数据 预 处 理 〈 设 置 presort=True) 来 加 快 训练 ， 但 是 对 
于 较 大 训练 集 而 言 ， 可 能 会 减 慢 训练 的 速度 。 








基尼 不 纯度 还 是 信息 燃 


默认 使 用 的 是 基尼 不 纯度 来 进行 测量 ， 但 是 ， 你 可 以 将 超 参 数 
criterion 设 置 为 "entropy" 来 选择 信息 业 作 为 不 纯度 的 测量 方式 。 入 的 概 
念 源 于 热力 学 ， 是 一 种 分 子 混乱 程度 的 度量 : 如 果 分 子 保持 静 止 和 民 
序 ， 则 业 接 近 于 零 。 下 其 中 包括 香农 的 信 
息 理论 ， 它 衡量 的 是 一 条 信息 的 平均 信息 内 容 : 出 如 果 所 有 的 信息 都 相 
同 ， 则 焕 为 零 。 在 机 器 学 习 中 ， 它 也 经 常 被 用 作 一 种 不 纯度 的 测量 方 
式 : 如 果 数 据 集 中 仪 包含 一 个 类 别 的 实例 ， 其 烂 为 零 。 公 式 6-3 显 示 了 
i 例如 ， 图 6-1 中 深度 2 左 侧 节 点 的 炳 值 等 于 

村 losl ot) 本 7 os| 六)~ :0.31 








公式 6-3: 信息 灶 


H. = pixslog(p;1) 
有 | 





那么 你 到 底 应 该 使 用 基尼 不 纯度 还 是 信息 呢 ?其实 ， 大 多 数 情 况 
下 ， 它 们 状 没 有 什么 大 的 不 同 ， 产 生 的 树 都 很 相似 。 基 尼 不 纯度 的 计算 
速度 略微 快 一 些 ， 所 以 它 是 个 不 错 的 默认 选择 。 它 们 的 不 同 在 于 ， 基 尼 
不 纯度 倾向 于 从 树枝 中 分 裂 出 最 常见 的 类 别 ， 而 信息 焙 则 倾向 于 生产 更 
平衡 的 树 。 操 


[ 山 燃 值 的 减少 通常 被 称 为 信息 增 荔 。 
[2] 更 多 详情 可 参阅 Sebastian Raschka 的 有 趣 分 析 


(https://sebastianraschka.com/faq/docs/decision-treebinary.htm!|)。 





正则 化 超 参数 


决策 树 极 少 对 训练 数据 做 出 假设 (比如 线性 模型 就 正好 相反 ， 它 显 
然 假设 数据 是 线性 的 ) 。 如 果 不 加 以 限制 ， 树 的 结构 将 跟随 训练 集 变 
化 ， 严 密 拟 合 ， 并 且 很 可 能 过 上 度 拟 合 。 这 种 模型 通常 被 称 为 非 参 数 模 
型 ， 这 不 是 说 它 不 包含 任何 参数 (事实 上 它 通 第 有 很 多 参数 ) ， 而 是 指 
在 训练 之 前 没有 确定 参数 的 数量 ， 导 致 模型 结构 自由 而 紧密 地 贴近 数 
据 。 相 应 的 参数 模型 ， 比 如 线性 模型 ， 则 有 预先 设 定好 的 一 部 分 参数 ， 
0 0 
JJ 风险 ) 。 


为 避免 过 度 拟 合 ， 需 要 在 训练 过 程 中 降低 决策 树 的 自由 上 度 。 现 在 你 
应 该 知道 ， 这 个 过 程 被 称 为 正则 化 。 正 则 化 超 参 数 的 选择 取决 于 你 所 使 
用 的 模型 ， 但 是 通常 来 说 ， 至 少 可 以 限制 决策 树 的 最 大 深度 。 在 Scikit- 
Learm 中 ， 这 由 超 参 数 max_depth 控 制 ( 默 认 值 为 None， 意 味 着 无 限 
制 ) 。 减 小 max_depth 可 使 模型 正则 化 ， 从 而 降低 过 上 度 拟 合 的 风险 。 


DecisionTreeClassifier 类 还 有 一 些 其 他 的 参数 ， 同 样 可 以 限制 决策 
树 的 形状 : min_samples_split (分 裂 前 节点 必须 有 的 最 小 样本 数 〉， 
min_samples_leaf《 叶 节点 必须 有 的 最 小 样本 数量 〉， 
min_weight_fraction_leaf〈( 跟 min_samples_leaf 一 样 ， 但 表现 为 加 权 实 例 
总 数 的 占 比 )，max_leaf_nodes (最 大 叶 节 点 数量 ) ， 以 及 
max_features (分 裂 每 个 节点 评估 的 最 大 特征 数量 ) 。 增 大 超 参 数 min_* 
或 是 减 小 max_* 将 使 模型 正则 化 。 





























全 二 可 忆 先 不 加 约束 地 训 统 模型 ， 然 后 再 对 不 必要 的 节点 进行 前 
枝 《 删 除 )。 如 果 一 个 节点 的 子 节点 全 部 为 叶 节 点 ， 则 该 节点 可 被 认为 
不 必要 ， 除 非 它 所 表示 的 纯度 提升 有 重要 的 统计 意义 。 标 准 统计 测试 
比如 :2 测试 ， 是 用 来 估算 “提升 纯粹 是 出 于 偶然 ”( 被 称 为 虐 假设 ) 的 概 
率 。 如 果 这 个 概率 〈 称 之 为 p 值 ) 高 于 一 个 给 定 阔 值 〈 通 常 是 5%， 由 超 
参数 控制 ) ， 那 么 这 个 节点 可 被 认为 不 必要 ， 其 子 节点 可 被 删除 。 直 到 
所 有 不 必要 的 节点 都 被 删除 ， 剪 枝 过 程 结 


图 6-3 显 示 了 在 卫星 数据 集 《〈 见 第 5 章 介 绍 ) 上 训练 的 两 个 决策 树 。 
左 图 使 用 默认 参数 〈 即 无 约束 〉 来 训练 决策 树 ， 右 图 的 决策 树 应 用 











min_samples_leaf=4 进 行 训 练 。 很 明显 ， 左 图 模型 过 度 拟 合 ， 右 图 的 泛 
化 效果 更 佳 。 


min samples leaf=4 





-1.5-1.0-0.5 0.0 0.5 1.0 1.5 2.0 25 -1.5-1.0-0.50.0 0.5 1.0 1.5 2.0 2.5 
Xl Xl 











图 6-3: 使 用 min_samples_leaf 正 则 化 


回归 


决策 树 也 可 以 执行 回归 任务 。 我 们 用 Scikit_Learn 的 
DecisionTreeRegressor 来 构建 一 个 回归 树 ， 在 一 个 市 噪声 的 二 次 数据 集 
上 进行 训练 ， 其 中 max_depth=2: 








from sklearn.tree import DecisionTreeRegressor 


tree_reg = DecisionTreeRegressor(max_depth=2) 
tree_reg.fit(X, y) 





结果 树 如 图 6-4 所 示 。 













x1 <= 0.1973 
mse = 0.0978 
samples = 200 
Value = 0.3539 










x1 <= 0.7718 
mse = 0.074 
samples = 156 
value = 0,2592 









x1 <=0.0917 
mse = 0.0377 
samples = 44 
value = 0,6894 






















mse = 0.0359 
samples = 46 
value = 0.6146 


mse = 0.0151 
samples = 110 
Value = 0.1106 


mse = 0.0131 
samples = 24 
Value = 0.5522 








图 6-4: 回归 任务 的 决策 树 





这 标 树 看 起 来 跟 之 前 建立 的 分 类 树 很 相似 。 主 要 兰 别 在 于 ， 每 个 布 
护 上 不 再 是 预测 一 个 类 别 而 是 预测 一 个 值 。 例 如 ， 如 果 你 想 要 对 一 个 
x1=0.6 的 新 实例 进行 预测 ， 那 么 从 根 节 点 开始 志 历 ， 最 后 到 达 预 测 
value=0.1106 的 叶 节 点 。 这 个 预测 结果 其 实 束 是 与 这 个 叶 节 点 关联 的 110 


个 实例 的 平均 目标 值 。 在 这 110 个 实例 上 ， 预 测 产生 的 均 方 误差 
(MSE) 等 于 0.0151。 


图 6-5 的 左 侧 显示 了 该 模型 的 预测 。 如 果 设 置 max_depth=3， 将 得 到 
如 右 图 所 示 的 预测 。 注 意 看 ， 每 个 区 域 的 预测 值 永远 等 于 该 区 域内 实例 
的 目标 平均 值 。 算 法 分 裂 每 个 区 域 的 方法 ， 就 是 使 最 多 的 训练 实例 尽 可 
能 接近 这 个 预测 值 。 


CART 算 法 的 工作 原理 跟前 面 介 绍 的 大 臻 相同， 唯一 不 同 在 于 ， 它 
分 裂 训练 集 的 方式 不 是 最 小 化 不 纯度 ， 而 是 最 小 化 MSE。 公 式 6-4 显 示 
了 算法 尝试 最 小 化 的 成 本 函数 。 


公式 6-4: CART 回 归 成 本 函数 
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几 丰 二) 





max depth=2 max depth=3 




















图 6-5: 两 个 决策 树 回 归 模 型 的 预测 对 比 





与 分 类 任务 一 样 ， 决 策 树 在 处 理 回归 任务 时 也 很 容易 过 度 拟 合 。 如 
末 没 有 任何 正则 化 《即使 用 默认 超 参数 ) ， 你 将 得 到 如 图 6-6 左 侧 所 示 
的 预测 结果 ， 这 显然 对 训练 集 严 重 过 度 拟 合 。 只 需要 设置 
min_samples_leaf=10， 束 能 得 到 一 个 看 起 来 合理 得 多 的 模型 ， 如 图 6-6 右 
图 所 示 。 




















图 6-6: 对 回归 决策 树 正 则 化 


不 稳定 性 


希望 现在 ， 你 已 经 确信 了 选择 决策 树 的 充足 理由 : 它们 很 容易 理解 
和 和 解释， 使 用 简单 ， 功 能 全 面 并 且 十 分 强大 。 但 是 ， 它 们 确实 也 有 一 些 
限制 。 首 先 ， 你 可 能 已 经 注意 到 ， 决 策 树 青睐 正 交 的 决策 边界 《所 有 的 
分 裂 都 与 轴线 垂直 ) ， 这 导致 它们 对 训练 集 的 旋转 非常 敏感 。 例 如 ， 图 
6-7 显 示 了 一 个 简单 的 线性 可 分 离 数 据 集 : 左 图 里 ， 决 策 树 可 以 很 轻松 
分 裂 ; 而 到 了 右边 ， 数 据 集 旋转 45° 后 ， 决 策 边界 产生 了 不 必要 的 卷 
曲 。 虽 然 两 个 模型 都 看 似 完 美 拟 合 训 练 集 ， 但 是 右 侧 模型 很 可 能 泛 化 不 
佳 。 限 制 这 种 问题 的 方法 之 一 是 使 用 PCA《〈 参 见 第 8 章 ) ， 让 训练 数据 
定位 在 一 个 更 好 的 方向 上 。 
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图 6-7: 对 数据 旋转 敏感 


更 概括 地 说 ， 决 策 树 的 主要 问题 是 它们 对 训练 数据 中 的 小 变化 非常 
敏感 。 例 如 ， 如 果 你 从 总 尾 花 数据 集中 移 除 花瓣 最 宽 的 Versicolor 总 尾 
花 ( 花 办 长 4.8 厘 米 ， 宽 1.8 厘 米 ) ， 然 后 重新 训练 一 个 决策 树 ， 你 可 能 
得 到 如 图 6-8 所 示 的 模型 。 这 跟 之 前 图 6-2 的 决策 树 看 起 来 截然 不 同 。 事 
实 上 ， 由 于 Scikit-Leam 所 使 用 的 算法 是 随机 的 ， 出 即使 是 在 相同 的 训练 
数据 上 ， 你 也 可 能 得 到 完全 不 同 的 模型 (除非 你 对 超 参 数 random_state 








进行 设置 ) 。 


花 浴 长 度 





图 6-8: 对 训练 集 细节 敏感 


在 下 一 章 中， 我 们 将 会 看 到 ， 随 机 森林 通过 对 许多 树 的 预测 进行 平 
均 ， 可 以 限制 这 种 不 稳定 性 。 


[] 每 个 市 点 随机 选择 特征 集 进行 评估 。 


练习 
1L. 如 果 训练 集 有 100 万 个 实例 ， 训 练 决策 树 〈 无 约束 ) 大 致 的 深度 


是 多 少 ? 


2. 通 常 来 说 ， 子 节 点 的 基尼 不 纯度 是 高 于 还 是 低 于 其 父 节 点 ?是 通 
常 更 高 /更 低 ? 还 是 永远 更 高 /更 低 ? 


3. 如 果 决 俩 树 过 上 度 拟 合 训练 集 ， 减 少 max_depth 是 否 为 一 个 好 主意 ? 


.如 果 决 宋 树 对 训练 集 拟 合 不 足 ， 尝 试 缩放 输入 特征 是 售 为 一 个 好 
? 

















Ya 
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5. 如 果 在 包含 100 万 个 实例 的 训练 集 上 训练 决策 树 需 要 一 个 小 时 ， 
那么 在 包含 1000 万 个 实例 的 训练 集 上 训练 决策 树 ， 大 概 需 要 多 长 时 间 ? 


6. 如 果 训 练 集 包 含 100000 个 实例 ， 设 置 presort=True 可 以 加 快 训练 
么 ? 


7. 为 卫星 数据 集训 练 并 微调 一 个 决策 树 。 


a. 使 用 make_moons (Cn_samples=10000，noise=0.4) 生成 一 个 卫星 
数据 集 。 


b. 使 用 train_test_split () 拆 分 训练 集 和 测试 集 。 


c. 使 用 交叉 验证 的 网 格 搜索 《在 GridSearchCV 的 帮助 下 ) 为 
DecisionTree-Classifier 找 到 适合 的 超 参 数 。 提 示 : 尝试 max leaf_nodes 的 
多 种 值 。 


d. 使 用 超 参 数 对 整个 训练 集 进行 训练 ， 并 测量 模型 在 测试 集 上 的 性 
能 。 你 应 该 得 到 约 85% 到 87% 的 准确 率 。 


8. 种 植 一 片 森林 。 


a. 继 续 之 前 的 练习 ， 生 产 1000 个 训练 集 子 集 ， 每 个 子 集 包 含 随机 挑 
选 的 100 个 实例 。 提 示 : 使 用 Scikit-Learn 的 ShuffleSplit 来 实现 。 


b. 使 用 前 面 得 到 的 最 佳 超 参数 值 ， 在 每 个 子 集 上 训练 一 个 决策 树 。 
在 测试 集 上 评估 这 1000 个 决策 树 。 因 为 训练 集 更 小 ， 所 以 这 些 决 策 树 的 
表现 可 能 比 第 一 个 决策 树 要 差 一 些 ， 只 能 达到 约 80% 的 准确 座 。 

c. 见 证 奇迹 的 时 刻 到 了 。 用 每 个 测试 集 实 例 ， 生 成 1000 个 决策 树 的 
预测 ， 然 后 仅 保 留 次 数 最 频 蚂 的 预测 (可 以 使 用 SciPy 的 mode () 函 
数 ) 。 这 样 你 在 测试 集 上 可 获得 大 多 数 投票 的 预测 结果 。 


d. 评 估 测 试 集 上 的 这 些 预 测 ， 你 得 到 的 准确 率 应 该 比 第 一 个 模型 更 
高 〈 高 出 0.5% 一 1.5%) 。 恭 嘉 ， 你 已 经 训练 出 了 一 个 随机 森林 分 类 器 ! 


以 上 练习 的 解答 可 从 附录 A 中 获得 。 


第 7 章 ”集成 学 习 和 随机 森林 


如 末 你 随机 向 几 和 干 个 人 询问 一 个 复杂 问题 ， 然 后 汇总 他 们 的 回答 。 
在 许多 情况 下 ， 你 会 发 现 ， 这 个 汇总 的 回答 比 专家 的 回答 还 要 好 。 这 被 
称 为 群体 智 意 。 同 样 ， 如 宁 你 聚合 一 组 预测 器 《比如 分 类 器 或 回归 器 ) 
的 预测 ， 得 到 的 预测 结果 也 比 最 好 的 单个 预测 器 要 好 。 这 样 的 一 组 预测 
器 ， 我 们 称 为 集成 ， 所 以 这 种 技术 ， 也 被 称 为 集成 学 习 ， 而 一 个 集成 学 
习 的 算法 则 被 称 为 集成 方法 。 


例如 ， 你 可 以 训练 一 组 决策 树 分 类 器 ， 每 一 标 树 都 基于 训练 集 不 同 
的 随机 子 集 进行 训练 。 做 出 预测 时 ， 你 只 需要 获得 所 有 树 各 目的 预测 ， 
然后 给 出 得 票 最 多 的 类 别 作为 预测 结果 《〈 见 第 6 章 最 后 一 道 练 习 ) 。 这 
样 一 组 决策 树 的 集成 被 称 为 随机 和 森林， 尽管 很 简单 ， 但 它 是 迄今 可 用 的 
最 强大 的 机 器 学 习 算 法 之 一 。 


此 外 ， 正 如 我 们 在 第 2 章 讨 论 过 的 ， 在 项 目 快要 结束 时 ， 你 可 能 
经 构建 好 了 一 些 不 错 的 预测 器 ， 这 时 你 束 可 以 通过 集成 方法 ， 将 它们 组 
合成 一 个 更 强 的 预测 器 。 事 实 上 ， 在 机 器 学 习 苋 赛 中 获胜 的 解决 方案 通 
常 都 涉及 多 种 集成 方法 (最 知名 的 是 Nerflix 大 奖 赛 
(http://netflixprize.com/) ) 。 


本 章 我 们 将 探讨 最 流行 的 几 种 集成 方法 ， 包 括 bagging、boosting、 
stacking 等 ， 也 将 探索 随机 森林 。 

















投票 分 类 此 


假设 你 已 经 训练 好 了 一 些 分 类 旧 ， 每 个 分 类 占 的 准确 率 约 为 80%。 
大 概 包 括 : 一 个 逻辑 回归 分 类 器 、 一 个 SVM 分 类 器 、 一 个 随机 森林 分 类 
器 、 一 个 K- 近 邻 分 类 如 ， 或 许 还 有 更 多 《〈 见 图 7-1) 。 





逻辑 回归 支持 向 量 机 随机 获 林 
分 类 器 分 类 器 分 类 器 其 他 


多 种 预测 器 














图 7-1: 训练 多 种 分 类 器 
个 分 


这 时 ， 要 创建 出 一 个 更 好 的 分 类 器 ， 最 简单 的 办 法 就 是 聚合 每 个 分 
类 器 的 预测 ， 然 后 将 得 票 最 多 的 结果 作为 预测 类 别 。 这 种 大 多 数 投票 分 
类 器 被 称 为 便 投 票 分 类 器 〈 见 图 7-2) 。 
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图 7-2: 硬 投 票 分 类 器 预测 


你 会 多 少 有 点 惊讶 地 发 现 ， 这 个 投票 法 分 类 器 的 准确 率 通 钊 比 集成 
中 最 好 的 分 类 器 还 要 高 。 事 实 上 ， 即 使 每 个 分 类 融 都 是 弱 学 习 器 《意味 
着 它 仅 比 随机 猜测 好 一 点 ) ， 通 过 集成 依然 可 以 实现 一 个 强 学 习 絮 (高 
准确 率 ) ， 只 要 有 足够 大 数量 并 且 足 够 多 种 类 的 弱 学 习 占 就 可 以 。 


这 怎么 可 能 呢 ?” 下 面 这 个 类 比 可 以 帮助 你 掀 开 这 层 神 秘 面纱 。 假 设 
你 有 一 个 略微 偏 倚 的 硬币 ， 它 有 51% 的 可 能 正面 数字 朝 上 ，49% 的 可 能 
背面 花 朝 上 。 如 果 你 找 1000 次 ， 你 大 人 致 会 得 到 差不多 510 次 数字 和 490 次 
花 ， 所 以 正面 是 大 多 数 。 而 如 果 你 做 数学 题 ， 你 会 发 现 , “在 1000 次 投 
掷 后 ， 大 多 数 为 正面 朝 上 ”的 概率 接近 75%。 投 掷 人 硬币 的 次 数 越 多 ， 这 
个 概率 越 高 〈 例 如 ， 投 掷 10000 次 后 ， 这 个 概率 攀升 至 97%) 。 这 是 因 
为 大 数 定 理 导致 的 : 随 着 你 不 断 投掷 硬币 ， 正 面 彰 上 的 比率 越 来 越 接 近 
于 正面 的 概率 (51%) 。 图 7-3 显 示 了 10 条 含 倚 硬币 的 投掷 结果 。 可 以 看 
出 随 着 投掷 次 数 的 增加 ， 正 面 的 比率 逐渐 接近 51%， 最 终 所 有 10 条 线 全 
都 接近 519%， 并 且 始 终 位 于 50% 以 上 。 
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图 7-3: 大 数 定 理 


同样 ， 假 设 你 创建 了 一 个 包含 1000 个 分 类 器 的 集成 ， 每 个 分 类 器 都 
只 有 51% 的 几率 是 正确 的 〈 几 乎 没 比 随机 猜测 强 多 少 ) 。 如 果 你 以 大 多 
数 投 票 的 类 别 作为 预测 结 末 ， 你 可 以 期 符 的 准确 率 高 达 759%。 但 是 ， 这 
基于 的 前 提 是 : 所 有 的 分 类 口 都 是 完全 独立 的 ， 彼 此 的 错误 时 不 相关 。 
显然 这 是 不 可 能 的 ， 因 为 它们 都 是 在 相同 的 数据 上 训练 的 。 它 们 很 可 能 
会 犯 相 同 的 错误 ， 所 以 也 会 有 很 多 次 大 多 数 投 给 了 错误 的 类 别 ， 寻 致 集 
成 的 准确 率 有 所 降低 。 











全 -预测 器 尽 可 能 互相 独立 时 ， 集 成 方法 的 效果 最 优 。 获 得 多 种 
分 类 器 的 方法 之 一 就 是 使 用 不 同 的 算法 进行 训练 。 这 会 增加 它们 犯 不 同 
类 型 错误 的 机 会 ， 从 而 提升 集成 的 准确 紊 。 


下 面 的 代码 用 Scikit-Leam 创 建 并 训练 一 个 投票 分 类 器 ， 由 三 种 不 同 
的 分 类 器 组 成 “训练 集 是 卫星 数据 集 ， 见 第 5 章 ) : 











from sklearn.ensemble import RandomForestClassifier 
from sklearn.ensemble import VotingClassifier 

from sklearn.linear_model import LogisticRegression 
from sklearn.svm import SVC 


log_clf = LogisticRegression() 

rnd_clf = RandomForestClassifier() 

svm_clf = SVC() 

voting_clf = VotingClassifier( 
estimators=[('1r', log_ cif), ('rf', rnd_cilf), ('svc', svm clf)], 
voting="'hard' 


) 
voting_cilf.fit(X train, y_train) 





看 看 每 个 分 类 器 在 测试 集 上 的 准确 率 : 





>>> from sklearn.metrics import accuracy_score 
>>> for clf in (log_ clf, rnd cilf, svm clf, voting_ clf): 


>>> clf.fit(X train, y_train) 
>>> y_pred = clf.predict(X_ test) 
>>> print(clf. class . name , accuracy_score(y_test, y_pred)) 





LogisticRegression 0.864 
RandomForestClassifier 0.872 
SVC 0.888 

VotingClassifier 0.896 








你 看 到 了 ， 投 票 分 类 器 略 胜 于 所 有 单个 分 类 器 。 


如 果 所 有 分 类 器 都 能 够 估算 出 类 别 的 概率 〈( 即 有 predict_proba () 
方法 ) ， 那 么 你 可 以 将 概率 在 所 有 单个 分 类 器 上 平均 ， 然 后 让 Scikit- 
Learm 给 出 平均 概率 最 高 的 类 别 作为 预测 。 这 被 称 为 软 投票 法 。 通 党 来 
说 ， 它 比 硬 投票 法 的 表现 更 优 ， 因 为 它 给 予 那 些 高 度 自信 的 投票 更 高 的 
权重 。 而 所 有 你 需要 做 的 就 是 用 voting="soft" 代 蔡 voting="hard"， 并 确保 
所 有 分 类 器 都 可 以 估算 出 概率 。 默 认 情 况 下 ，SVC 类 是 不 行 的 ， 所 以 你 
需要 将 其 超 参 数 probability 设 置 为 True (这 会 导致 SVC 使 用 交叉 验证 来 
估算 类 别 概 紊 ， 减 慢 训练 速度 ， 并 会 添加 predict_proba() 方法 ) 。 如 
和 你 会 发 现 投票 分 类 器 的 准确 率 达 到 919%6 
LD ! 








bagging 和 pasting 


前 面 提 到 ， 获 得 不 同 种 类 分 类 器 的 方法 之 一 是 使 用 不 同 的 训练 算 
法 。 还 有 男 一 种 方法 是 每 个 预测 器 使 用 的 算法 相同 ， 但 是 在 不 同 的 训练 
集 随 机 子 集 上 进行 训练 。 采 样 时 如 果 将 样本 放 回 ， 这 种 方法 叫 作 
baggingl (bootstrap aggregating 四 的 缩写 ， 也 叫 自 举 汇聚 法 ) ; 采样 时 
样本 不 放 回 ， 这 种 方法 则 叫 用 pasting。 忆 | 


换 句 话说 ，bagging 和 pasting 都 允许 训练 实例 在 多 个 预测 器 中 被 多 次 


采样 ， 但 是 只 有 bagging 人 允许 训练 实例 被 同一 个 预测 器 多 次 采样 。 采 样 
过 程 和 训练 过 程 如 图 7-4 所 示 。 









随机 抽 桂 
(样本 放 回 就 是 bootstrap) 


训练 集 








图 7-4: pasting/bagging 训 练 集 采 样 和 训练 


一 旦 预测 右 训 练 完成 ， 集 成 束 可 以 通过 简单 地 聚合 所 有 预测 锅 的 预 
测 ， 来 对 新 实例 做 出 预测 。 聚 合 函数 通常 是 统计 法 〈 即 最 多 数 的 预测 好 








比 硬 投票 分 类 器 一 样 》 用 于 分 类 ， 或 是 平均 法 用 于 回归 。 每 个 预测 器 单 
独 的 偏差 都 蝇 于 在 原始 训练 集 上 训练 的 偏差 ， 但 是 通过 穴 合 ， 同 时 降低 
了 偏差 和 方差 。 纪 总 体 来 说 ， 最 终结 果 是 ， 与 直接 在 原始 训练 集 上 训练 
的 单个 预测 器 相 比 ， 集 成 的 偏差 相近 ， 但 是 方差 更 低 。 


如 图 7-4 所 示 ， 你 可 以 通过 不 同 的 CPU 内 核 甚至 是 不 同 的 服务 器 ， 
并 行 地 训练 预测 恬 。 类 似 地 ， 预 测 也 可 以 并 行 。 这 正 是 bagging 和 Pasting 
方法 如 此 流行 的 原因 之 一 ， 它 们 非常 易于 拓展 。 








Scikit-Learn 的 bagging 和 pasting 


Scikit-Learn 提 供 了 一 个 简单 的 API， 可 用 BaggingClassifier 类 进行 
bagging 和 pasting (或 BaggingRegressor 用 于 回归 ) 。 以 下 代码 训练 了 一 
个 包含 500 个 决策 树 分 类 器 的 集成 ， 乌 每 次 随机 从 训练 集中 采样 100 个 训 
练 实例 进行 训练 ， 然 后 放 回 〈 这 是 一 个 bagging 的 示例 ， 如 果 你 想 使 用 
pasting， 只 需要 设置 bootstrap=False 即 可 ) 。 人 参数 n_jobs 用 来 指示 Scikit- 
Learn 用 多 少 CPU 内 核 进行 训练 和 预测 〈-1 表 示 让 Scikit-Learn 使 用 所 有 可 
用 内 核 ) : 





from sklearn.ensemble import BaggingClassifier 
from sklearn.tree import DecisionTreeClassifier 


bag_clf = BaggingClassifier( 
DecisionTreeClassifier(), n_estimators=500, 
max_samples=100, bootstrap=True, n_jobs=-1 


) 
bag_clf.fit(X train, y_train) 
y_pred = bag_clf.predict(X test) 








全 如果 站 而 分 类 器 能 够 信 算 类 别 概率 《也 就 是 具备 
predict_proba〈) 方法 ) ， 比 如 决策 树 分 类 上 器， 那么 BaggingClassifier 自 
动 执行 的 就 是 软 投票 法 而 不 是 人 硬 投 票 法 。 


图 7-5 比 较 了 两 种 决策 边界 ， 一 个 是 单个 的 决策 树 ， 一 个 是 由 500 个 
决策 树 组 成 的 bagging 集 成 〈 来 目前 面 的 代码 ) ， 均 在 卫星 数据 集 上 训 
练 完成 。 可 以 看 出 ， 集 成 预测 的 泛 化 效果 很 可 能 会 比 单独 的 诀 策 树 要 好 
一 些 ， 二 者 偏差 相近 ， 但 是 集成 的 方 莽 更 小 两边 训练 集 上 的 错误 数量 
差不多 ， 但 是 集成 的 决策 边界 更 规则 〉。 
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图 7-5: 单个 的 决策 树 与 500 个 决策 树 的 bagging 集 成 对 比 


由 于 自助 法 给 每 个 预测 器 的 训练 子 集 引入 了 更 高 的 多 样 性 ， 所 以 最 
后 bagging 比 pasting 的 偏差 略 高 ， 但 这 也 意味 着 预测 器 之 间 的 关联 度 更 
低 ， 所 以 集成 的 方差 降低 。 总 之 ，bagging 生 成 的 模型 通常 更 好 ， 这 也 
就 是 为 什么 它 更 受 欢 迎 。 但 是 ， 如 有 末 你 有 充足 的 时 间 和 CPU 资源 ， 可 以 
使 用 交叉 验证 来 对 bagging 和 pasting 的 结果 进行 评估 ， 再 做 出 最 合适 的 选 


择 。 
包 外 评估 


对 于 任意 给 定 的 预测 器 ， 使 用 bagging， 有 些 实例 可 能 会 被 采样 多 
次 ， 而 有 些 实例 则 可 能 根本 不 被 采样 。BaggingClassifier 默 认 采 样 m 个 训 
练 实 例 ， 然 后 放 回 样本 (bootstrap=True〉，m 是 训练 集 的 大 小 。 这 意味 
着 对 于 每 个 预测 器 来 说 ， 平 均 只 对 63% 的 训练 实例 进行 采样 。 包 剩余 
37%6 未 被 采样 的 训练 实例 称 为 包 外 〈oob) 实例 。 注 意 ， 对 所 有 预测 器 
来 说 ， 这 是 不 一 样 的 37%。 


既然 预测 器 在 训练 的 时 候 从 未 见 过 这 些 包 外 实例 ， 正 好 可 以 用 这 些 
实例 进行 评 佑 ， 从 而 不 需要 单独 的 验证 集 或 是 交叉 验证 。 将 每 个 预测 器 
在 其 包 外 实例 上 的 评估 结果 进行 平均 ， 你 就 可 以 得 到 对 集成 的 评估 。 


























在 Scikit-Learn 中 ， 创 建 BaggingClassifier 时 ， 设 置 oob_score=True， 
就 可 以 请 求 在 训练 结束 后 自动 进行 包 外 评估 。 下 面 的 代码 演示 了 这 一 
点 。 通 过 变量 oob_score_ 可 以 得 到 最 终 的 评估 分 数 : 








>>> bag_clf = BaggingClassifier( 

>>> DecisionTreeClassifier(), n_estimators=500, 
>>> bootstrap=True, n_jobs=-1, oob_score=True) 
>>> bag_clf.fit(X_ train, y_train) 

>>> bag_clf.oob_score_ 

0.93066666666666664 





根据 包 外 评估 结果 ， 这 个 BaggingClassifier 分 类 器 很 可 能 在 测试 集 
上 达到 约 93.1% 的 准确 率 。 我 们 来 验证 一 下 : 





>>> from sklearn.metrics import accuracy_score 
>>> y_pred = bag_clf.predict(X_test) 

>>> accuracy_score(y_test, y_pred) 
0.93600000000000005 





测试 集 上 的 准确 率 为 93.6% 一 一 非常 接近 ! 


每 个 训练 实例 的 包 外 决策 函数 也 可 以 通过 变量 
oob_decision_function 获得。 本 例 中 (基础 预测 器 具备 
predict_proba() 方法 ) ， 决 策 函 数 返 回 的 是 每 个 实例 的 类 别 概率 。 例 
如 ， 包 外 评估 估计 ， 第 二 个 训练 实例 有 60.6% 的 概率 属于 正 类 (以 及 
39.4% 的 概率 属于 负 类 ) 。 











>>> bag_clf.oob decision_function 


array([[ 0， 2 学 外 
[ 0.60588235， 0.39411765], 
[ 1. ， 0. ]s 
[ 1. ， 0. ]， 
[ 0. Pe Tl 
[ 0.48958333, 0.51041667]]) 





[1| “Bagging Predictors”, L.Breiman (1996) 。 

[2] 统计 学 中 ， 放 回 重新 采样 称 为 自助 法 〈bootstrapping) 。 

[3] “Pasting small votes for classification in large databases and on-line”， 
L.Breiman (1999) 。 

[4] 关于 偏差 和 方差 详 见 第 4 章 介 绍 。 

[5] max_samples 可 以 在 0.0 到 1.0 之 间 灵 活 地 设置 ， 而 每 次 采样 的 最 大 实 


例 数量 等 于 训练 集 的 大 小 滋 以 max_samples。 
[6] 随 着 m 增 长 ， 这 个 比率 接近 1-exp (-1) s63.2129%6。 


Random Patches 和 随机 子 空间 


BaggingClassifier 也 支持 对 特征 进行 抽样 ， 这 通过 两 个 超 参数 控 
制 : max_features 和 bootstrap_features。 它 们 的 工作 方式 跟 max_samples 
和 bootstrap 相 同 ， 只 是 抽样 对 象 不 再 是 实例 ， 而 是 特征 。 因 此 ， 每 个 预 
测 器 将 用 输入 特征 的 随机 子 集 进行 训练 。 


这 对 于 处 理 高 维 输入 〔 例 如 图 像 ) 特别 有 用 。 对 训练 实例 和 特征 都 
进行 抽样 ， 被 称 为 Random ”Patches 方法 。 凯 而 保留 所 有 训练 实例 〔( 即 
bootstrap=False 并 有 日 max_samples=1.0) 但 是 对 特征 进行 抽样 ( 即 
bootstrap_features=True 并 且 / 或 max_features<1.0) ， 这 被 称 为 随机 子 空 
闻 法 。 乌 

对 特征 抽样 给 预测 器 带 来 更 大 的 多 样 性 ， 所 以 以 略 遍 一 点 的 偏差 换 
取 了 更 低 的 方差 。 


[1] “Ensembles on Random Patches”，G.Louppe 和 了 P.Geurts (2012) 。 
[2| “The random subspace method for constructing decision forests”, Tin 
Kam Ho (1998) 。 





随机 和 森林 


前 面 已 经 提 到 ， 随 机 森林 (http://goo.gVzVOGQ1) 出 是 决策 树 的 集 
成 ， 通 常用 bagging (有 时 也 可 能 是 pasting) 方法 训练 ， 训 练 集 大 小 通过 
max_samples 来 设置 。 除 了 先 构建 一 个 BaggingClassifier 然 后 将 结果 传输 
到 DecisionTreeClassifier， 还 有 一 种 方法 就 是 使 用 RandomForestClassifier 
类 ， 这 种 方法 更 方便 ， 对 决策 树 更 优化 (同样 ， 对 于 回归 任务 也 有 一 
个 RandomForestRegressor 类 ) 。 以 下 代码 使 用 所 有 可 用 的 CPU 内 核 ， 训 
~ 一 个 拥有 500 村 树 的 随机 森林 分 类 器 (每 棵 树 限 制 为 最 多 16 个 叶 市 
尽 ): 








from sklearn.ensemble import RandomForestClassifier 


rnd_clf = RandomForestClassifier(n estimators=500, max_leaf_ nodes=16, n_jobs=-1) 
rnd_cilf.fit(X train, y_train) 


y_pred_rf = rnd_ clf,predict(X_test ) 





除了 少数 例外 ，RandomForestClassifier 具 有 DecisionTreeClassifier 的 
所 有 超 参 数 ， 以 及 BaggingClassifier 的 所 有 超 参 数 ， 前 者 用 来 控制 树 的 
生长 ， 后 者 用 来 控制 集成 本 身 。 卫 


随机 森林 在 树 的 生长 上 引入 了 更 多 的 随机 性 : 分 裂 节 点 时 不 再 是 搜 
索 最 好 的 特征 (参见 第 6 章 ) ， 而 是 在 一 个 随机 生成 的 特征 子 集 里 搜索 
最 好 的 特征 。 这 导致 决策 树 具 有 更 大 的 多 样 性 ，《〈 和 再 一 次 ) 用 更 高 的 偏 
差 换取 更 低 的 方差 ， 总 之 ， 还 是 产生 了 一 个 整体 性 能 更 优 的 模型 。 下 面 
的 BaggingClassifier 大 致 与 前 面 的 RandomForestClassifier 相 同 : 








bag_clf = BaggingClassifier( 
DecisionTreeClassifier(splitter="random", max_leaf_nodes=16), 
n_estimators=500, max_samples=1.0, bootstrap=True, nN_jobs=-1 


) 





极端 随机 树 


如 前 所 述 ， 随 机 森林 里 单 棵 树 的 生长 过 程 中 ， 每 个 节点 在 分 错 时 仪 
考虑 到 了 一 个 随机 子 集 所 包含 的 特征 。 如 时 我 们 对 每 个 特征 使 用 随机 立 
值 ， 而 不 是 搜索 得 出 的 最 佳 国 值 “ 如 常规 决策 树 ) ， 则 可 能 让 决策 树 生 


长 得 更 加 随机 。 


这 种 极端 随机 的 决策 树 组 成 的 木林， 被 称 为 极端 随机 树 
(http:/goo.gVRHGEA4) 集成 外 〈 或 简称 Extra-Trees) 。 同 样 ， 它 也 是 
以 更 高 的 偏差 换取 了 更 低 的 方差 。 极 端 随机 树 训练 起 来 比 常规 随机 森林 
要 快 很 多 ， 因 为 在 每 个 节点 上 找到 每 个 特征 的 最 佳 闪 值 是 决策 树 生长 中 
最 耗 时 的 任务 之 一 。 


使 用 Scikit-Learn 的 ExtraTreesClassifier 可 以 创建 一 个 极端 随机 树 分 
类 器 。 它 的 API 与 RandomForestClassifier 相 同 。 同 理 ， 
ExtraTreesRegressor 与 RandomForestRegressor 的 API 也 相同 。 











全 ;志和 来 说 ， 很 难 预 先知 道 一 个 RandomForestClassifier 是 否 会 比 一 
个 ExtraTreesClassifier 更 好 或 是 更 拳 。 唯 一 的 方法 是 两 种 都 符 试 一 授 ， 
然后 使 用 交叉 验证 〈 还 需要 使 用 网 格 搜索 调整 超 参数 ) 进行 比较 。 


特征 重要 性 


最 后 ， 如 果 你 得 看 单个 决策 树 会 发 现 ， 重 要 的 特征 更 可 能 出 现在 靠 
近 根 节点 的 位 置 ， 而 不 重要 的 特征 通常 出 现在 靠近 叶 节 点 的 位 置 (甚至 
根本 不 出 现 ) 。 因 此 ， 通 过 计算 一 个 特征 在 森林 中 所 有 树 上 的 平均 深 
度 ， 可 以 估算 出 一 个 特征 的 重要 程度 。Scikit-Learn 在 训练 结束 后 自动 计 
算 每 个 特征 的 重要 性 。 通 过 变量 feature_importances_ 你 就 可 以 访问 到 这 
个 计算 结果 。 例 如 ， 以 下 代码 在 竟 尾 花 数 据 集 〈 见 第 4 章 ) 上 训练 了 一 
个 RandomForestClassifier， 并 输出 了 每 个 特征 的 重要 性 。 看 起 来 最 重要 
的 特征 是 花瓣 长 度 〈44%) 和 宽度 〈42%) ， 而 花王 的 长 度 和 宽度 则 相 
对 不 那么 重要 分别 是 11% 和 2%) : 











>>> from sklearn.datasets import load_iris 

>>> iris = load_ iris() 

>>> rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1) 

>>> rnd_clf.fit(iris["data"], iris["target"]) 

>>> for name, score in zip(iris["feature names"], rnd_ cilf.feature importances ): 
>>> print(name, score) 

sepal length (cm) 0.112492250999 


sepal width (cm) 0.0231192882825 
petal length (cm) 0.441030464364 
petal width (cm) 0.423357996355 


ee | 


同样 ， 如 果 你 在 MNIST 数 据 集 〈 见 第 3 章 ) 上 训练 一 个 随机 森林 分 
类 器 ， 然 后 绘制 其 每 个 像素 的 重要 性 ， 你 将 得 到 如 图 7-6 所 示 的 图 像 。 





不 重要 








图 7-6: MNIST 像 素 位 的 重要 性 (根据 随机 森林 分 类 器 ) 


所 以 ， 如 果 想 快速 了 解 什 么 是 真正 重要 的 特征 ， 随 机 森林 是 一 个 非 
常 便利 的 方法 ， 特 别 是 当 你 需要 执行 特征 选择 的 时 候 。 


[1] “Random Decision Forests”, T.Ho (1995) 。 

[2] 如 果 你 想 要 对 决策 树 之 外 的 东西 进行 装 袋 (bag) ，BaggingClassifier 
还 是 有 用 的 。 

[3] 有 有 几 个 值得 注意 的 例外 : 没有 splitter 〈 强 制 为 random) ， 没 有 
presort《〈 强 制 为 False) ， 没 有 max_samples《〈 强 制 为 1.0) ， 没 有 
base_estimator (强制 为 DecisionTreeClassifier 与 给 定 超 参 数 ) 。 

[4] “Extremely randomized trees”，P.Geurts、D.Ermst 和 
L.Wehenkel (2005) 。 


提升 法 


提升 法 〈Boosting， 最 初 被 称 为 假设 提升 ) 是 指 可 以 将 几 个 弱 学 习 
器 结合 成 一 个 强 学 习 器 的 任意 集成 方法 。 大 多 数 提 升 法 的 总 体 思路 是 循 
环 训练 预测 器 ， 每 一 次 都 对 其 前 序 做 出 一 些 改正 。 可 用 的 提升 法 有 很 
多 ， 但 目前 最 流行 的 方法 是 AdaBoost (http:/goo.gVOIduRW) 出 〈 自 适 
应 提升 法 ，Adaptive Boosting 的 缩写 ) 和 梯度 提升 。 我 们 先 从 AdaBoost 
开始 介绍 。 


AdaBoost 


新 预测 器 对 其 前 序 进行 纠正 的 办 法 之 一 ， 束 是 更 多 地 关注 前 序 拟 合 
不 足 的 训练 实例 。 从 而 使 新 的 预测 堪 不 断 地 越 来 越 专 注 于 难 缠 的 问题 ， 
这 就 是 AdaBoost 使 用 的 技术 。 


例如 ， 要 构建 一 个 AdaBoost 分 类 器 ， 首 先 需 要 训练 一 个 基础 分 类 器 
(比如 决策 树 ) ， 用 它 对 训练 集 进行 预测 。 然 后 对 错误 分 类 的 训练 实例 
增加 其 相对 权重 ， 接 着 ， 使 用 这 个 最 新 的 权重 对 第 二 个 分 类 器 进行 训 
练 。 然 后 再 次 对 训练 集 进 行 预 测 ， 继 续 更 新 权重 ， 并 不 断 循环 内 前 〈 见 
7-7) 。 




















图 7-7: AdaBoost 循 环 训练 ， 实 例 权 重 不 断 更 新 


图 7-8 显 示 了 在 卫星 数据 集 上 5 个 连续 的 预测 喜 的 决策 边界 〈 在 本 例 
中 ， 每 个 预测 器 都 是 使 用 RBF 核 函数 的 高 度 正则 化 的 SVM 分 类 器 内 )。 
第 一 个 分 类 器 产生 了 许多 错误 实例 ， 所 以 这 些 实例 的 权重 得 到 提升 。 因 
此 第 二 个 分 类 器 在 这 些 实例 上 的 表现 有 所 提升 ， 然 后 第 三 个 、 第 四 
个 .…... 右 图 绘制 的 是 相同 预测 器 序列 ， 唯 一 的 差别 在 于 学 习 率 减 半 〈 即 
每 次 碗 代 仅 提升 一 半 错 误 分 类 的 实例 的 权重 ) 。 可 以 看 出 ，AdaBoost 这 
种 依 序 循环 的 学 习 技 术 跟 标 度 下 降 有 一 些 寞 曲 同 工 之 处 ， 差 别 只 在 于 
不 再 是 调整 单个 预测 器 的 参数 使 成 本 函数 最 小 化 ， 而 是 不 断 在 集成 
中 加 入 预测 器 ， 使 模型 越 来 越 好 。 


一 旦 全 部 预测 器 训练 完成 ， 集 成 整体 做 出 预测 时 就 跟 bagging 或 
pasting 方 法 一 样 了， 除非 预测 器 有 不 同 的 权重 ， 因 为 它们 总 的 准确 紊 是 
基于 加 权 后 的 训练 集 。 











仆人 这 种 依 序 学 习 技术 有 一 个 重要 的 缺陷 就 是 无 法 并 行 《哪怕 只 是 
一 部 分 ) ， 因 为 每 个 预测 器 只 能 在 前 一 个 预测 需 训 练 完成 并 评估 之 后 才 
能 开始 训练 。 因 此 ， 在 拓展 方面 ， 它 的 表现 不 如 bagging 和 pasting 方 法 。 


learning rate=0 
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图 7-8: 连续 预测 器 的 决策 边界 


我 们 来 仔细 看 看 AdaBoost 算 法 。 每 个 实例 的 权重 w ' 最 初 设置 为 
lm。 第 一 个 预测 器 训练 后 ， 计 算 其 加 权 误 兰 率 mm， 见 公式 7-1。 


公式 7-1: 第 j 个 预测 器 的 加 权 误 差 率 


y i 
Lo 


1 = = 一 (其 中 ,，y 是 第 j 个 预测 由 对 第 ;个 实例 做 出 的 预测 ) 


gl 


Fel 


预测 器 的 权重 a 通过 公式 7-2 来 计算 ， 其 中 nl 是 学 习 率 超 参数 默认 
为 1) 。 包 预测 器 的 准确 率 越 高 ， 其 权重 就 越 高 。 如 果 它 只 是 随机 猜 
测 ， 则 其 权重 接近 于 零 。 但 是 ， 如 果 大 部 分 情况 下 它 都 是 错 的 〈 也 惑 是 
准确 率 比 随机 猜测 还 低 ) ， 那 么 它 的 权重 为 负 。 








公式 7-2: 预测 器 权重 


| 一 六 
Q, = nlog—— 
k 


接 下 来 ， 使 用 公式 7-3， 对 实例 的 权重 进行 更 新 ， 也 就 是 提升 被 错 
误 分 类 的 实例 的 权重 。 


公式 7-3: 权重 更 新 规则 


对 于 ;= 1 sm 


wexp(a) (全 #7) 


然后 将 所 有 实例 的 权重 归 一 化 〈 即 队 以 司 ” )。 

最 后 ， 使 用 更 新 后 的 权重 训练 一 个 新 的 预测 费 ， 然 后 重复 整个 过 程 
(计算 新 预测 器 的 权重 ， 更 新 实例 权重 ， 然 后 对 为 一 个 预测 器 进行 训 
练 ， 等 等 ) 。 当 到 达 所 再 数量 的 预测 右 ， 或 得 到 完美 的 预 训 器 时 ， 算 法 
停止。 


预测 的 时 候 ，AdaBoost 就 是 简单 地 计算 所 有 预测 右 的 预测 结果 ， 并 
使 用 预测 器 权重 a 对 它们 进行 加 权 。 最 后 ， 得 到 大 多 数 加 权 投 票 的 类 别 


就 是 预测 器 给 出 的 预测 类 别 〈 见 公式 7-4〉。 


公式 7-4: AdaBoost 预 测 


N 
)(X) = Arena 》, a (其 中 让 是 预测 器 的 数量 ) 
< 
y(x) = 


Scikit-Learn 使 用 的 其 实 是 AdaBoost 的 一 个 多 分 类 版 本 ， 叫 作 
SAMME (http://goo.gVEji2vR) 外 (基于 多 类 指数 损失 函数 的 逐步 添加 
模型 ) 。 当 只 有 两 个 类 别 时 ，SAMME 即 等 同 于 AdaBoost。 此 外 ， 如 果 
预测 器 可 以 估算 类 别 概率 ( 即 具有 predict_proba() 方法 ) ，Scikit- 
Learn 会 使 用 一 种 SAMME 的 变 体 ， 称 为 SAAMME.R (R 代 表 “Real”*) ， 它 
依赖 的 是 类 别 概率 而 不 是 类 别 预测 ， 通 常 表现 更 好 。 


下 面 的 代码 使 用 Scikit-Learn 的 AdaBoostClassifier 〈 正 如 你 猜想 的 ， 
还 有 一 个 AdaBoostRegressor 类 ) 训练 了 一 个 AdaBoost 分 类 器 ， 它 基于 
200 个 单 层 决策 树 (decision stump) 。 顾 名 思 义 ， 单 层 决 策 树 束 是 
max_depth=1 的 决策 树 ， 换 言 之 ， 就 是 一 个 决策 节点 加 两 个 叶 节 点 。 这 
是 AdaBoostClassifier 默 认 使 用 的 基础 估算 器 。 








from sklearn.ensemble import AdaBoostClassifier 

ada_clf = AdaBoostCJassifier( 
DecisionTreeClassifier(max_depth=1), n_estimators=200, 
algorithm="SAMME.R", learning_rate=0.5 


) 
ada_clf.fit(X train, y_train) 








外 加 果 你 的 AdaBoost 集 成 过 度 拟 合 训练 集 你 可 以 试 试 减少 估算 
恬 数 量 ， 或 是 提高 基础 估算 器 的 正则 化 程度 。 


梯度 提升 


另 一 个 非常 受 欢 迎 的 提升 法 是 梯度 提升 〈Gradient Boosting) 。 乌 





跟 AdaBoost 一 样 ， 梯 度 提升 〈http:/goo.gVEzw4 记 ) 也 是 逐步 在 集成 中 
添加 预测 器 ， 每 一 个 都 对 其 前 序 做 出 改正 。 不 同 之 处 在 于 ， 它 不 是 像 
AdaBoost 那 样 在 每 个 迭代 中 调整 实例 权重 ， 而 是 让 新 的 预测 器 针对 前 一 
个 预测 器 的 残 差 进行 拟 合 。 


我 们 来 看 一 个 简单 的 回归 示例 ， 使 用 决 集 树 作为 基础 预测 器 (梯度 
提升 当然 也 适用 于 回归 任务 ) ， 这 被 称 为 梯度 树 提 升 或 者 是 梯度 提升 回 
归 树 〈GBRT) 。 首 先 ， 在 训练 集 〈 比 如 带 噪 声 的 二 次 训练 集 》 上 拟 合 


一 个 DecisionTreeRegressor: 








from sklearn.tree import DecisionTreeRegressor 


tree_reg1 = DecisionTreeRegressor(max_depth=2) 
tree_reg1.fit(X, y) 





现在 ， 针 对 第 一 个 预测 器 的 残 奔 ， 训 练 第 二 个 
DecisionTreeRegressor: 





y2 = y -tree_reg1l.predict(X) 
tree_reg2 = DecisionTreeRegressor(max_depth=2) 
tree_reg2.fit(X, y2) 





然后 ， 针 对 第 二 个 预测 需 的 残 着 ， 训 练 第 三 个 回归 器 : 





y3 = y2 - tree_reg2,predict(X) 
tree_reg3 = DecisionTreeRegressor(max_depth=2) 
tree_reg3.fit(X, y3) 








现在 ， 我 们 有 了 一 个 包含 三 棵 树 的 集成 。 它 将 所 有 树 的 预测 相 加 ， 
从 而 对 新 实例 进行 预测 : 





y_pred = sum(tree.predict(X new) for tree in (tree_regi, tree_ reg2, tree_reg3)) 





图 7-9 的 左 侧 表示 这 三 标 树 单独 的 预测 ， 右 侧 表 示 和 集成 的 预测 。 第 
一 行 ， 集 成 只 有 一 樟树 ， 所 以 它 的 预测 与 第 一 栋 树 的 预测 完全 相同 。 第 
二 行 是 在 第 一 株 树 的 残 关 上 训练 的 一 棵 新 树 ， 从 右 侧 可 见 ， 集 成 的 预测 
等 于 前 面 两 棵 树 的 预测 之 和 。 类 似 地 ， 第 三 行 双 有 一 柠 在 第 二 柠 树 的 残 
差 上 训练 的 新 树 ， 集 成 的 预测 随 着 新 树 的 添加 逐渐 变 好 。 


训练 GBRT 和 集成 有 个 简单 的 方法 ， 束 是 使 用 Scikit-Learm 的 
GradientBoosting-Regressor 类 。 与 RandomForestRegressor 类 似 ， 它 具有 
控制 决策 树 生 长 的 超 参数 (例如 max_depth、min_samples_leaf 等 ) ， 以 
及 控制 集成 训练 的 超 参 数 ， 例 如 树 的 数量 Cn_estimators) 。 以 下 代码 可 
创建 上 面 的 集成 : 





from sklearn.ensemble import GradientBoostingRegressor 


gbrt = GradientBoostingRegressor(max_ depth=2, n_estimators=3, learning_rate=1.0) 
gbrt.fit(X, y) 





残 差 和 树 的 预测 器 集成 预测 


，， 训练 集 7 ，， 训练 集 
一 h(x) 61 ,4 一 ha)=h(m) 


| 一 ha)=hnGe)+thabe)+ha(e) 


y-hixi)-ho(x1) 





图 7-9: 梯度 提升 
超 参数 learning_rate 对 每 棵 树 的 贡献 进行 缩放 。 如 果 你 将 其 设置 为 





低 值 ， 比 如 0.1， 则 需要 更 多 的 树 来 拟 合 训 练 案 ， 但 是 预测 的 泛 化 效 末 
通常 更 好 。 这 是 一 种 被 称 为 收缩 的 正则 化 技术。 图 7-10 显 示 了 用 低 学 习 
率 训练 的 两 个 GBRT 集 成 : 左 侧 拟 合 训练 集 的 树 数 量 不 足 ， 而 右 侧 拟 合 
训练 集 的 树 数 量 过 多 从 而 导致 过 度 拟 合 。 


要 找到 树 的 最 佳 数量 ， 可 以 使 用 早期 停止 法 (参见 第 4 章 ) 。 人 简单 
的 实现 方法 就 是 使 用 staged_predict() 方法 : 它 在 训练 的 每 个 阶段 (一 
棵 树 时 ， 两 棵 树 时 ， 等 等 ) 都 对 集成 的 预测 返回 一 个 迭代 器 。 以 下 代码 
训练 了 一 个 拥有 120 标 树 的 GBRT 集 成 ， 然 后 测量 每 个 训练 阶段 的 验证 误 
最 优 数量 ， 最 后 使 用 最 优 树 数 重 新 训练 了 一 个 GBRT 











learning rate=0.1, n estimators=3 learning rate=0.1, n estimators=200 


07|， “| 一 集成 预测 


























图 7-10: GBRT 和 集成 一 一 预测 右 太 少 〈( 左 图 ) 和 预测 堪 太 多 “〈 右 图 ) 





import numpy as np 
from sklearn.model selection import train test_ split 
from sklearn.metrics import mean_squared error 


Xx_train, Xx_val, y_train, y_val = train test_ split(X, y) 


gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120) 
gbrt.fit(Xx train, y_train) 


errors = [mean_squared error(y_val, y_pred 
for y_pred in gbrt.staged predict(Xx_val)] 


bst_n_estimators = np.argmin(errors) 


gbrt_best = GradientBoostingRegressor(max_depth=2,n_ estimators=bst_n_estimators) 
gbrt_best.fit(X_ train, y_train) 





验证 误差 如 图 7-11 的 左 图 所 示 ， 最 好 的 模型 预测 如 右 图 所 示 。 


验证 误差 最 好 的 模型 (55 棵 树 ) 
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要 的 数量 








图 7-11: 通过 早期 停止 法 调整 树 的 数量 


实际 上 ， 要 实现 早期 停止 法 ， 不 一 定 需要 先 训练 大 量 的 树 ， 然 后 再 
回头 找 最 优 的 数字 ， 还 可 以 真 的 提前 停止 训练 。 设 置 warm_start=True， 
当 fit () 方法 被 调用 时 ，Scikit-Learn 会 保留 现 有 的 树 ， 从 而 允许 增 量 训 
练 。 以 下 代码 会 在 验证 误差 连续 5 次 迭代 未 改善 时 ， 直 接 停止 训练 





gbrt = GradientBoostingRegressor(max_depth=2, warm_start=True) 


min_val error = float("inf") 
error_going up = 0 
for n_estimators in range(1, 120): 
gbrt.n_estimators = n_estimators 
gbrt.fit(Xx_ train, y_train) 
y_pred = gbrt.predict(X_val) 
val error = mean_ squared_ error(y_val, y_pred) 
If val error < min_ val error: 
min_val error = val_ error 
error_going up = 0 


else: 
error_going up += 1 
If error_going_up == 5: 
break # early stopping 





GradientBoostingRegressor 类 还 可 以 文 持 超 参数 subsample， 指 定 用 
于 训练 每 棵 树 的 实例 的 比例 。 例 如 ， 如 果 subsample=0.25， 则 每 棵 树 用 
25% 的 随机 选择 的 实例 进行 训练 。 现 在 你 可 以 猪 到 ， 这 也 是 用 更 高 的 偏 
差 换 取 了 更 低 的 方差 ， 同 时 在 相当 大 的 程度 上 加 速 了 训练 过 程 。 这 种 技 
术 被 称 为 随机 梯度 提升 。 


人 penser 人 用 其 他 成 本 函数 ， 通 过 超 参 数 loss 来 控制 (有 
关 更 多 详细 信息 ， 请 参阅 Scikit- 和 





[1|] “A _ Decision-Theoretic Generalization of On-Line Learning and an 
pe on to Boosting”, Yoav Freund 和 Robert E. 0 (1997) 。 

[2] 这 里 只 是 为 了 举例 说 明 。 对 于 AdaBoost 来 说 ，SVM 通 常 不 是 很 好 的 
基础 预测 器 ， 因 为 它们 很 慢 ， 并 且 由 于 使 用 了 AdaBoost， 很 容易 不 稳 


定 。 

[3] 初始 的 AdaBoost 算 法 不 使 用 学 习 率 超 参 数 。 

[4] 更 详细 内 容 可 参考 : “Mnulti-Class AdaBoost”，J 本 Zhu 等 人 〈2006) 。 
[5] ”首次 提出 来 自 于 “Arcing the Edge”, L.Breiman (1997) ， 
http://statistics.berkeley.edu/sites/default/files/tech-reports/486.pdf 。 





堆 登 法 


Ne DR 
称 层 装 泛 化 法 (http:/goo.gl/9I2NBw) 。 它 基 于 一 个 简单 的 想法 ， 与 
其 使 用 一 些 简单 的 函 ne 
测 ， 我 们 为 什么 不 训练 一 个 模型 来 执 和 人 本 这 个 聚合 呢 ? 图 7-12 显 示 了 在 新 
实例 上 执行 回归 任务 的 这 样 一 个 集成 。 底 部 的 三 个 预测 器 分 别 预 测 了 不 
同 的 值 3.1、2.7 和 2.9) ， 然 后 最 终 的 预测 器 ( 称 为 混合 器 或 元 学 习 
器 ) 将 这 些 预 测 作 为 输入 ， 进 行 最 终 预测 (3.0) 。 


训练 混合 器 的 常用 方法 是 使 用 留存 集 。 乌 我们 看 看 它 是 如 何 工 作 
的 。 首 先 ， 将 训练 集 分 为 两 个 子 集 ， 第 一 个 子 集 用 来 训练 第 一 层 的 预测 
髓 〈 见 图 7-13) 。 
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图 7-12: 通过 混合 预测 器 聚合 预测 
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图 7-13: 训练 第 一 层 


然后 ， 用 第 一 层 的 预测 器 在 第 二 个 留存) 子 集 上 进行 预测 ( 见 图 
7-14) 。 因 为 预测 器 在 训练 时 从 未 见 过 这 些 实例 ， 所 以 可 以 确保 预测 
是 “干净 的 "。 那 么 现在 对 于 留存 集中 的 每 个 实例 都 有 了 三 个 预测 值 。 我 
们 可 以 使 用 这 些 预测 值 作为 输入 特征 ， 创 建 一 个 新 的 训练 集 (新 的 训练 
集 有 三 个 维度 ) ， 并 保留 目标 值 。 在 这 个 新 的 训练 集 上 训练 混合 器 ， 让 
它 学 习 根据 第 一 层 的 预测 来 预测 目标 值 。 
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图 7-14: 训练 混合 器 


事实 上 ， 通 过 这 种 方法 可 以 训练 多 种 不 同 的 混合 器 〈 例 如 ， 一 个 使 
用 线性 回归 ， 另 一 个 使 用 随机 森林 回归 ， 等 等 ) : 于 是 我 们 可 以 得 到 一 
个 混合 器 层 。 诀 罕 在 于 将 训练 集 分 为 三 个 子 集 : 第 一 个 用 来 训练 第 一 
层 ， 第 二 个 用 来 创造 训练 第 二 层 的 新 训练 集 〈 使 用 第 一 层 的 预测 ) ， 而 
第 三 个 用 来 创造 训练 第 三 层 的 新 训练 集 〈 使 用 第 二 层 的 预测 ) 。 一 日 训 
练 完成 ， 我 们 可 以 按照 顺序 遍历 每 层 来 对 新 实例 进行 预测 ， 如 图 7-15 所 
人 No 
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图 7-15: 一 个 多 层 堆 靶 集成 的 预测 
不 入 的 是 ，Scikit-Learn 不 直接 文 持 堆 登 ， 但 是 自己 堆 出 stacking 的 





实现 品 并 不 太 难 《参见 接 下 来 的 练习 ) 。 或 者 ， 你 也 可 以 使 用 开源 的 实 
现 方案 ， 例 如 brew 〈 可 从 https:/github.comy/viisarbrew 获 得 ) 。 


[1] “Stacked Generalization”，D.Wolpert (1992) 。 

[2] 或 者 使 用 折 外 《〈out-of-fold) 预测 也 可 以 。 在 某 些 情况 下 ， 这 才 被 称 
为 堆 登 〈stacking) ， 而 使 用 留存 集 被 称 为 混合 (blending) 。 但 是 对 多 
数 人 而 言 ， 这 二 者 是 同义词 。 





练习 


1. 如 果 你 已 经 在 完全 相同 的 训练 集 上 训练 了 五 个 不 同 的 模型 ， 并 且 
它们 都 达到 了 95% 的 准确 率 ， 是 否 还 有 机 会 通过 结合 这 些 模型 来 获得 更 
好 的 结果 ? 如 果 可 以 ， 该 怎么 做 ? 如 果 不 行 ， 为 什么 ? 


2. 便 投票 分 类 器 和 软 投 票 分 类 器 有 什么 区 别 ? 


3. 是 否 可 以 通过 在 多 个 服务 器 上 并 行 来 加 速 bagging 集 成 的 训练 ? 
pasting 集 成 呢 ? boosting 集 成 呢 ? 随机 森林 或 stacking 集 成 呢 ? 


4. 包 外 评估 的 好 处 是 什么 ? 


5. 是 什么 让 极端 随机 树 比 一 般 随机 和 森林 更 加 随机 ? 这 部 分 增加 的 随 
机 性 有 什么 用 ? 极 问 随机 树 比 一 般 随机 森林 快 还 是 慢 ? 


6. 如 果 你 的 AdaBoost 集 成 对 训练 数据 拟 合 不 足 ， 你 应 该 调整 哪些 超 
参数 ? 怎么 调整 ? 


7. 如 宁 你 的 梯度 提升 集成 对 训练 集 过 度 拟 合 ， 你 是 应 该 提升 还 是 降 


低 学 习 率 ? 


8. 加 载 MNIST 数 据 集 〈 第 3 章 中 有 介绍 ) ， 将 其 分 为 一 个 训练 集 、 
一 个 验证 集 和 一 个 测试 集 ( 例 如 使 用 40000 个 实例 训练 ，10000 个 实例 验 
证 ， 最 后 10000 个 实例 测试 ) 。 然 后 训练 多 个 分 类 器 ， 比 如 一 个 随机 和 森 
林 分 类 器 、 一 个 极端 随机 树 分 类 器 和 一 个 SYM。 接 下 来 ， 尝 试 使 用 软 投 
票 法 或 者 硬 投票 法 将 它们 组 合成 一 个 集成 ， 这 个 集成 在 验证 集 上 的 表现 
要 胜 过 它们 各 自 单 独 的 表现 。 成 功 找到 集成 后 ， 在 测试 集 上 测试 。 与 单 


个 的 分 类 器 相 比 ， 它 的 性 能 要 好 多 少 ? 


9. 运 行 上 一 个 练习 中 的 单个 分 类 器 ， 用 验证 集 进 行 预测 ， 然 后 用 预 
测 结果 创建 一 个 新 的 训练 集 : 新 训练 集中 的 每 个 实例 都 是 一 个 同 量 ， 这 
个 向 量 包 含 所 有 分 类 右 对 于 一 张 图 像 的 一 组 预测 ， 目 标 值 是 图 像 的 类 
别 。 恭 喜 ， 你 成 功 训练 了 一 个 混合 句 ， 结 合 第 一 层 的 分 类 器 ， 它 们 一 起 
构成 了 一 个 stacking 集 成 。 现 在 在 测试 集 上 评估 这 个 集成 。 对 于 测试 集 
中 的 每 张 图 像 ， 使 用 所 有 的 分 类 器 进行 预测 ， 然 后 将 预测 结果 提供 给 混 
合 妖 ， 得 到 集成 的 预测 。 与 前 面 训 练 的 投票 分 类 融 相 比 ， 这 个 集成 的 结 





果 如 何 ? 
以 上 练习 的 解答 可 从 附录 A 中 获得 。 


第 8 半 ” 降 维 


许多 机 器 学 习 问 题 涉 及 训练 实例 的 几 千 甚 全 上 百 万 个 特征 。 后 面 我 
们 将 会 看 到 ， 这 不 仅 导 致 训练 非常 缓慢 ， 也 让 我 们 更 加 难以 找到 好 的 解 
决 方案 。 这 个 问题 通常 被 称 为 维度 的 诅 序 。 


幸运 的 是 ， 对 现实 世界 的 问题 ， 我 们 一 般 可 以 大 量 减少 特征 的 数 
量 ， 将 环 手 的 问题 转化 成 容易 解决 的 问题 。 例 如 ，MNIST 图 像 〈 见 第 3 
章 介绍 ) : 图 像 边框 的 像素 位 上 几乎 全 是 白色 ， 所 以 我 们 完全 可 以 在 训 
练 集 中 抛弃 这 些 像素 位 ， 也 不 会 丢失 太 多 信息 。 图 7-6 也 证 实 了 这 些 像 
素 对 于 分 类 任务 来 说 完全 无 足 轻 重 。 此 外 ， 两 个 相 邻 像素 通常 是 高 度 相 
关 的 : 如 果 将 它们 合并 成 一 个 像素 〈 例 如 ， 取 两 个 像素 强度 的 平均 
值 ) ， 也 不 会 竺 失 太 多 信息 。 

















外 \ 效 据 降 维 确实 会 于 失 _ 些 信息 《就 好 比 将 图 像 压缩 为 JPBCG 全 

降低 其 质量 一 样 》， 所 以 ， 它 虽然 能 够 加 速 训 练 ， 但 是 也 会 轻微 降低 系 
统 性 能 。 同 时 它 也 让 流水 线 更 为 复杂 ， 维 护 难 度 上 升 。 所 以 ， 如 果 训 练 
太 慢 ， 你 首先 应 该 尝试 的 还 是 继续 使 用 原始 数据 ， 然 后 再 考虑 数据 降 

维 。 不 过 在 茶 些 情况 下 ， 降 低 训练 数据 的 维度 可 能 会 滤 除 掉 一 些 不 必要 
0 

练 ) 。 


除了 加 快 训练 ， 降 维 对 于 数据 可 视 化 (或 称 DataViz〉 也 是 非常 有 
用 的 。 将 维度 降 到 两 个 (或 三 个 ) ， 就 可 以 在 图 形 上 绘制 出 高 维 训练 
集 ， 通 过 视觉 来 检测 和 模式， 常常 可 以 获得 一 些 十 分 重要 的 洞 绎 ， 比 如 说 


HX> 
聚 类 。 














本 章 将 探讨 维度 的 诅咒 ， 大 致 了 解 高 维 空间 中 发 生 的 事情 。 然 后 ， 
我 们 将 介绍 两 种 主要 的 数据 降 维 方法 (投影 和 流 形 学 习 ) ， 并 学 习 现在 
最 流行 的 三 种 数据 降 维 技术 : PCA、Kernal PCA 以 及 LLE。 


维度 的 诅 匹 
我 们 太 习 惯 三 维 空间 的 生活 也， 所 以 当 我 们 试图 去 想象 一 个 高 维 空 


间 时 ， 我 们 的 直 和 沉思 维 很 难 成 功 。 即 使 是 一 个 基本 的 四 维 超 立 方 体 〈 参 
见 图 8-1) ， 我 们 也 很 难 在 脑海 中 想象 出 来 ， 更 不 用 说 在 一 个 干 维 空间 


中 弯曲 的 200 维 椭圆 体 。 








图 8-1: 点 、 线 、 面 、 立 方 体 和 超 立方 体 ( 从 零 维 到 四 维 超 立 方 体 ) 乌 


事实 证 明 ， 在 高 维 空间 中 ， 许 多 事物 的 行为 都 迎 然 不 同 。 例 如 ， 如 
果 你 在 一 个 单位 平面 (1x1 的 正方 形 ) 内 随机 选择 一 个 点 ， 那 么 这 个 点 
离 边界 的 距离 小 于 0.001 的 概率 只 有 约 0.4% 【〈 也 就 是 说 ， 一 个 随机 的 点 
不 大 可 能 刚好 位 于 某 个 维度 的 “极端 ?>) 。 但 是 ， 在 一 个 10000 维 的 单位 
超 立 方 体 (1x1...x1 立 方 体 ， 一 万 个 1) 中 ， 这 个 概率 大 于 
99.999999% 。 高 维 超 立 方 体 中 大 多 数 点 都 非常 接近 边界 。 包 


还 有 一 个 更 麻烦 的 区 别 : 如果 你 在 单位 平面 中 随机 挑 两 个 点 ， 这 两 
个 点 之 间 的 平均 距离 大 约 为 0.52。 如 果 在 三 维 的 单位 立方 体 中 随机 挑 两 
个 点 ， 两 点 之 间 的 平均 距离 大 约 为 .66。 但 是 ， 如 果 在 一 个 100 万 维 的 
超 立 方 体 中 随机 挑 两 个 点 呢 ? 不 管 你 相信 与 否 ， 平 均 距离 大 约 为 
408.25 ( 约 等 于 作 000 000/56) ! 这 是 非常 违背 直觉 的 ， 位 于 同一 个 音 
位 超 立方 体 中 的 两 个 点 ， 怎 么 可 能 距离 如 此 之 远 ? 这 个 事实 说 明 高 维 数 
据 集 有 很 大 可 能 是 非常 稀 政 的 ， 大 多 数 训练 实例 可 能 彼此 之 间 相 距 很 
远 。 当 然 ， 这 也 意味 着 新 的 实例 很 可 能 远离 任何 一 个 训练 实例 ， 导 致 预 
测 跟 低 维 度 相 比 ， 更 加 不 可 靠 ， 因 为 它们 基于 更 大 的 推测 。 简 而 言 之 ， 
训练 集 的 维度 越 高 ， 过 度 拟 合 的 风险 就 越 大 。 


理论 上 来 说 ， 通 过 增 大 训练 集 ， 使 训练 实例 达到 足够 的 密度 ， 是 可 
以 解 开 维度 的 诅 殉 的 。 然 而 不 驻 的 是 ， 实 践 中 ， 要 达到 给 定 密度 所 需要 


























的 训练 实例 数量 随 着 维度 增加 呈 指 数 式 上 升 。 仅 仅 100 个 特征 下 和 远 小 

于 MNIST 问 题 》， 要 让 所 有 训练 实例 (假设 在 所 有 维度 上 平均 分 布 ) 之 
间 的 平均 距离 小 于 0.1， 你 需要 的 训练 实例 数量 就 比 可 观察 宇宙 中 的 原 

子 数 量 还 要 多 。 


II 好 吧 ， 如 有 果 算 上 时 间 就 是 四 维 ， 或 者 如 果 你 是 个 字符 串 理论 家 ， 还 
可 以 再 高 儿 个 维度 。 

[2] 在 http:/goo.gVOM7kU 上 可 以 观看 一 个 投影 到 三 维 空间 的 旋转 超 立 方 
体 。 图 片 由 维基 百科 用 户 NerdBoy1932 提 供 (Creative Commons BY-SA 
3.0 (https://creativecommons.org/licenses/bysa/3.0/) ) ， 转 载 自 
https://en.wikipedia.org/wiki/Tesseract.。 

[3] 趣味 事实 : 只 要 你 考虑 足够 多 的 维度 ， 你 所 知道 的 每 个 人 ， 至 少 在 
0 都 可 能 算是 个 极端 主义 者 《〈 比 如， 他 们 在 咖啡 里 放 多 少 
糖 ) 。 





数据 降 维 的 主要 方法 


在 我 们 深入 了 解 具体 的 降 维 算法 之 前 ， 我 们 先 来 看 看 降 维 的 两 种 主 
要 方法 : 投影 和 流 形 学 习 。 


投影 


在 大 多 数 现实 世界 的 问题 里 ， 训 练 实例 在 所 有 维度 上 并 不 是 均匀 分 
布 的。 许多 特征 几乎 是 不 变 的 ， 也 有 许多 特征 是 高 度 相 关联 的 《如 前 面 
讨论 的 MNIST 数 据 集 ) 。 因 此 ， 高 维 空间 的 所 有 训练 实例 实际 上 《或 近 
似 于 ) 受 一 个 低 得 多 的 低 维 子 空间 所 影响 。 这 听 起 来 很 抽象 ， 所 以 我 们 
来 看 一 个 例子 。 在 图 8-2 中 ， 你 可 以 看 到 一 个 由 圆 峰 表示 的 3D 数 据 集 。 




















图 8-2: 3D 数 据 集 和 2D 子 空间 
注意 看 ， 所 有 的 训练 实例 都 紧 换 着 一 个 平面 : 这 就 是 高 维 (3D ) 


空间 的 低 维 (2D) 子 空间 。 现 在 ， 如 果 我 们 将 每 个 训练 实例 垂直 投影 
到 这 个 子 空间 (如 图 中 实例 到 平面 之 间 的 短线 所 示 〉， 我 们 将 得 到 如 图 
8-3 所 示 的 新 2D 数 据 集 。 我 们 已 经 将 数据 集 维度 从 三 维 降 到 了 二 维 。 注 
意 ， 图 中 的 轴 对 应 的 是 新 特征 21 和 zz 《平面 上 投影 的 坐标 ) 。 











图 8-3: 投影 后 产生 的 新 2D 数 据 集 








不 过 投影 并 不 总 是 降 维 的 最 佳 方法 。 在 许多 情况 下 ， 子 空间 可 能 会 
弯曲 或 转动 ， 比 如 图 8-4 所 示 的 著名 的 瑞士 卷 玩 具 数 据 集 。 








图 8-4: 瑞士 卷 数据 集 


简单 地 进行 平面 投影 〈 例 如 放弃 xs) 会 直接 将 瑞士 卷 的 不 同 层 压 扁 
在 一 起 ， 如 图 8-5 的 左 图 所 示 。 但 是 你 真正 想 要 的 是 将 整个 瑞士 卷 展 开 
铺 平 以 后 的 2D 数 据 集 ， 如 图 8-5 的 右 图 所 示 。 
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图 8-5: 投影 到 平面 〈 左 ) 和 展开 瑞士 卷 ( 右 ) 
流 形 学 习 


瑞士 卷 就 是 二 维 流 形 的 一 个 例子 。 简 单 地 说 ，2D 流 形 就 是 一 个 能 
驶 在 更 高 维 空间 图 面 写 曲 和 扭转 的 2D 形 状 。 更 概括 地 说 ，d 维 流 形 就 是 
n (其 中 ，d<n) 维 空间 的 一 部 分 ， 局 部 类 似 于 一 个 d 维 超 平面 。 在 瑞士 
卷 的 例子 中 ，d=2，n-3: 它 局 部 类 似 于 一 个 2D 平 面 ， 但 是 在 第 三 个 维 
度 上 卷 起 。 


许多 降 维 算 法 是 通过 对 训练 实例 进行 流 形 建 模 来 实现 的 ， 这 被 称 为 
流 形 学 习 。 它 依赖 于 流 形 假设 ， 也 称 为 流 形 假说 ， 认 为 大 多 数 现实 世界 
的 高 维度 数据 集 存 在 一 个 低 维 度 的 流 形 来 重新 表示 。 这 个 假设 通常 是 赁 
经 验 观 察 的 。 


再 次 次 到 MNIST 数 据 集 : 所 有 手写 的 数字 图 像 都 有 一 些 相 似 之 处 。 
它们 由 相连 的 线条 组 成 ， 边 界 都 是 白色 的 ， 或 多 或 少 是 居中 的 ， 等 等 。 
如 条 你 随机 生成 图 像 ， 只 有 人 少 到 不 能 再 少 的 一 部 分 可 能 看 起 来 像 手写 数 
字 。 也 就 是 说 ， 如 果 你 要 创建 一 个 数字 图 像 你 拥有 的 目 由 度 要 远 远 低 
于 允许 你 创建 任意 图 像 的 目 由 度 。 而 这 些 限制 正 倾 癌 于 将 数据 集 挤 压 成 
更 低 维 度 的 流 形 。 

















流 形 假设 通常 还 伴随 铸 一 个 隐 含 的 假设 如果 能 用 低 维 空间 的 流 形 
表示 ， 手 涉 的 任务 例如 分 类 或 者 回归 〉 将 变 得 更 简单 。 例 如 ， 图 8-6 
的 上 面 一 行 ， 瑞 士 卷 被 分 为 两 类 : 3D 空 间 中 〈 左 上) 决策 边界 将 会 相 
en 


但 是 ， 这 个 假设 并 不 总 是 成 并 。 例 如 ， 图 8-6 的 确 行 ， 决 全 边界 在 
xl=5 处 ， 在 原始 的 3D 空 间 中 ， 这 个 边界 看 起 来 非常 简单 《一 个 垂直 的 平 
面 ) ， 但 是 在 展开 的 流 形 中 ， 决 策 边 界 看 起 来 反而 更 为 复 杀 《四 个 独立 
线段 的 集合 ) 。 


简 而 言 之 ， 在 训练 模型 之 前 降低 训练 集 的 维度 ， 表 定 可 以 加 快 训练 
0 








希望 现在 你 对 于 维度 的 诅 苑 有 了 一 个 很 好 的 理解 ， 也 知道 降 维 算 法 
是 怎么 对 付 它 的 ， 特 别 是 当 流 形 假设 成 并 的 时 候 ， 应 该 怎么 处 理 。 本 章 
剩余 部 分 将 逐一 介绍 几 个 最 流行 的 算法 。 

















图 8-6: 决策 边界 不 总 是 维度 越 低 越 简单 


PCA 


主 成 分 分 析 (PCA) 是 迄今 为 止 最 流行 的 降 维 算 法 。 它 先是 识别 出 
最 接近 数据 的 超 平 面 ， 然 后 将 数据 投影 其 上 。 


保留 差异 性 


将 训练 集 投影 到 低 维 超 乎 面 之 前 ， 需 要 选择 正确 的 超 平面 。 例 如 图 
8-7 的 左 图 代表 一 个 简单 的 2D 数 据 集 ， 沿 三 条 不 同 的 轴 〈 即 一 维 超 平 
面 ) 。 石 图 是 将 数据 集 映射 到 每 条 轴 上 的 结果 。 正 如 你 所 见 ， 在 实 线 上 
的 投影 保留 了 最 大 的 差异 性 ， 而 点 线 上 的 投影 只 保留 了 非常 小 的 差异 
性 ， 虚 线 上 的 投影 差异 性 居中 。 
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图 8-7: 选择 投影 的 子 空间 


选择 保留 最 大 差异 性 的 轴 看 起 来 比较 合理 ， 因 为 它 可 能 比 其 他 两 种 
投影 丢失 的 信息 更 少 。 要 证 明 这 一 选择 ， 还 有 一 种 方法 ， 比 较 原始 数据 
集 与 其 轴 上 的 投影 之 间 的 均 方 距离 ， 使 这 个 均 方 距离 最 小 的 轴 是 最 合理 





的 选择 ， 也 就 是 实 线 代 表 的 轴 。 这 也 正 是 PCA 背 后 的 简单 思想 
(http://goo.g/gbNo1D) 。 HU 


主 威 分 


主 成 分 分 析 (PCA) 可 以 在 训练 集中 识别 出 哪 条 轴 对 差异 性 的 贡献 
度 最 高 。 在 图 8-7 中 ， 即 是 由 实 线 表 示 的 轴 。 同 时 它 也 找 出 了 第 二 条 
轴 ， 它 对 剩余 差异 性 的 贡献 度 最 高 ， 与 第 一 条 轴 重 直 。 因 为 这 个 例子 是 
二 维 的 ， 所 以 除了 这 条 点 线 再 没有 其 他 。 如 果 是 在 更 高 维 数据 集中 ， 
PCA 还 会 找到 与 前 两 条 都 正 交 的 第 三 条 轴 ， 以 及 第 四 条 、 第 五 条 ， 等 等 
一 一 轴 的 数量 与 数据 集 维度 数量 相同 。 

定义 第 条 轴 的 单位 同 量 就 叫 作 第 i 个 主 成 分 (PC) 。 图 8-7 中 ， 第 一 
个 主 成 分 是 cj， 第 二 个 主 成 分 是 cc。 在 图 8-2 中 ， 前 两 个 主 成 分 是 平面 里 
正 交 的 箭头 所 示 ， 第 三 个 主 成 分 则 是 年 直 于 平面 《同上 或 同 下 ) 。 























生成 分 的 方向 是 不 稳定 的 ， 如 果 你 稍微 打 乱 训练 集 ， 然 后 重新 
运行 PCA， 部 分 新 的 主 成 分 可 能 指 回 跟 原来 的 主 成 分 相反 的 方向 。 但 
是 ， 它 们 通常 还 是 在 同一 条 轴 上 。 在 某 些 情况 下 ， 两 条 主 成 分 可 能 会 旋 
转 其 至 互 换 ， 但 是 它们 定义 的 平面 还 是 不 变 。 

所 以 怎么 找到 训练 集 的 主 成 分 呢 ? 还 好 有 一 种 标准 矩阵 分 解 技 术 ， 
叫 作 奇异 值 分 解 (SVD〉。 它 可 以 将 训练 集 矩 阵 X 分 解 成 三 个 矩阵 的 点 
积 U 2.VI， 其 中 VI 正 包含 我 们 想 要 的 所 有 主 成 分 ， 如 公式 8-1 所 示 。 


公式 8-1: 主 成 分 矩阵 


= ® Cy 


下 面 的 Python 代码 使 用 NumPy 的 svd〈) 函数 来 获取 训练 集中 所 有 








的 主 成 分 ， 并 提取 前 两 个 : 





X_centered = X - XxX.mean(axis=0) 

U, s, V = np.linalg.svd(X_centered) 
cl1=V.T[:, 0] 

c2=V.T[:, 1] 








龟 \pcA 仿 设 数 据 集 围绕 原点 集中 。 所 以 我 们 看 到 的 Scilit-Leam 的 
PCA 类 将 会 瞪 你 处 理 数据 集中 。 但 是 ， 如 果 你 是 目 己 实现 PCA〔 比 如 前 
面 的 示例 ) ， 或 者 使 用 其 他 库 时 ， 不 要 起 记 先 将 数据 集中 。 


低 维 度 投 影 

一 旦 确定 了 所 有 主 成 分 ， 就 可 以 将 数据 集 投影 到 由 前 d 个 主 成 分 定 
义 的 超 平面 上 ， 从 而 将 数据 集 的 维度 降 到 d 维 。 这 个 超 平面 的 选择 ， 能 
确保 投影 保留 尽 可 能 多 的 差异 性 。 例 如 ， 在 图 8-2 中 ，3D 数 据 集 投影 到 
由 前 两 个 主 成 分 定义 的 2D 平 面 上 上， 就 保留 了 原始 数据 集 的 大 部 分 差 
异 。 因 此 ，2D 投 影 看 起 来 非常 像 原 始 的 3D 数 据 集 。 


要 将 训练 集 投影 到 超 平 面 上 ， 简 单 地 计算 训练 集 沧 阵 X 和 和 窍 阵 Wa 的 
点 积 即 可 ，Wa 是 包含 前 d 个 主 成 分 的 矩阵 〈 即 由 和 矩阵 V1 的 前 d 列 组 成 的 
矩阵 ) ， 参 见 公 式 8-2。 


公式 8-2: 将 训练 集 投影 到 低 维 度 
和 XX 二 入 .WW 
d 


以 下 Python 代 码 将 训练 集 投影 到 由 前 两 个 主 成 分 定义 的 平面 上 : 











d-pro] 


W2 = V.T[:, :2] 
X2D = XxX_centered.dot(W2) 





好 了 ， 现 在 你 该 知道 如 何在 保留 尽 可 能 多 差异 性 的 同时 ， 将 任意 数 
气 集 降低 到 任意 维度 。 


使 用 Scikit-Learn 


跟 我 们 之 前 一 样 ，Scikit-Leam 的 PCA 类 也 使 用 SVD 分 解 来 实现 主 成 
A 
理 净 ) : 


from sklearn.decomposition import PCA 


pca = PCA(n_components = 2) 
X2D = pca.fit_transform(X) 


将 PCA 转 换 器 应 用 到 数据 集 之 后 ， 你 可 以 通过 变量 components 来 
访问 主 成 分 〈 它 包含 的 主 成 分 是 水 平 癌 量 ， 因 此 举例 来 说， 第 一 个 主 成 


分 即 等 于 pca.components_.T[: ，0]) 。 
方差 解 释 率 


另 一 个 非常 有 用 的 信息 是 每 个 主 成 分 的 方差 解释 率 ， 它 可 以 通过 变 
量 explained_variance_ratio_ 获 得 。 它 表示 每 个 主 成 分 轴 对 整个 数据 集 的 
i 
方 关 解释 率 : 














>>> print(pca.explained variance_ratio ) 
array([ 0.84248607, 0.14631839]) 


这 告诉 我 们 ， 数 据 集 方差 的 84.2% 由 第 一 条 轴 贡 献 ，14.6% 来 自 于 第 
二 条 轴 ， 剩 下 给 第 三 条 轴 的 还 不 到 1.2%， 所 以 有 理由 认为 它 可 能 没有 什 


么 信息 。 
选择 正确 数量 的 维度 


除了 武断 地 选择 要 降 至 的 维度 数量 ， 通 常 来 说 更 好 的 办 法 是 将 靠 前 
的 主 成 分 方差 解释 率 依次 相 加 ， 直 到 得 到 足够 大 比例 的 方差 〈 例 如 
95%) ， 这 时 的 维度 数量 就 是 很 好 的 选择 。 当 然 ， 除 非 你 正在 为 了 数据 
可 视 化 而 降 维 一 一 这 种 情况 下 ， 通 常会 直接 降 到 二 维 或 三 维 。 


下 面 的 代码 计算 PCA 但 是 没有 降 维 ， 而 是 计算 大 要 保留 训练 集 方差 
的 959%6 所 需要 的 最 低 维度 数量 : 





pca = PCA() 

pca.fit(X) 

cumsum = np.cumsum(pca.explained_ variance_ratio_) 
d = np.argmax(cumsum >= 0.95) + 1 





然后 ， 你 就 可 以 设置 n_components=d， 再 次 运行 PCA。 不 过 还 有 一 
个 更 好 的 方法 : 不 需要 指定 保留 主 成 分 的 数量 ， 你 可 以 直接 将 
n_components 设 置 为 0.0 到 1.0 之 间 的 浮 点 数 ， 表 示 和 希望 保留 的 方差 比 : 





pca = PCA(n_components=0.95) 
X_reduced = pca.fit transform(X) 








另外 ， 还 可 以 将 解释 方差 绘制 成 关于 维度 数量 的 函数 〈 绘 抽 
cumsum 即 可 ， 见 图 8-8) 。 曲 线 通常 都 会 有 一 个 拐点 ， 说 明 方差 停止 快 
速 增长 。 你 可 以 将 其 视 为 数据 集 的 本 征 维 数 。 从 本 例 中 可 以 看 出 ， 将 维 
度数 量 降 低 至 100 维 ， 不 会 损失 太 多 的 解释 方差 。 
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维度 数量 
图 8-8: 关于 维度 数量 的 解释 方差 函数 








PCA 压 缩 


显然 ， 降 维 之 后 训练 集 占 用 的 空间 要 小 得 多 。 例 如 ， 对 MNIST 数 据 
集 应 用 主 成 分 分 析 ， 然 后 保留 其 方差 的 95%。 你 会 发 现 ， 原 来 每 个 实例 
的 784 个 特征 变 得 只 有 150 多 个 特征 。 所 以 这 保留 了 绝 大 部 分 差异 性 的 同 
时 ， 数 据 集 的 大 小 变 为 不 到 原始 的 20%! 这 是 一 个 合理 的 压缩 比 ， 你 可 
以 看 看 它 如 何 极 大 提升 分 类 算法 “例如 SVM 分 类 堪 ) 的 速度 。 


在 PCA 投 影 上 运行 投影 的 逆转 换 ， 也 可 以 将 缩小 的 数据 集 解压 缩 回 
784 维 数据 集 。 当 然 ， 你 得 到 的 并 非 原 始 的 数据 ， 因 为 投影 时 损失 了 一 
部 分 信息 〈5% 被 丢弃 的 方才 ) ， 但 是 它 很 大 可 能 非常 接近 于 原始 数 
据 。 原 始 数据 和 重建 数据 《压缩 之 后 解压 缩 ) 之 间 的 均 方 距离 ， 被 称 为 
重建 误差 。 例 如 ， 以 下 代码 将 MNIST 数 据 集 压缩 到 154 维 ， 然 后 使 用 
inverse_transform ( ) 方法 将 其 解压 缩 回 784 维 。 图 8-9 显 示 了 原始 数据 集 
的 部 分 数字 〈 左 ) ， 以 及 这 些 数 字 经 过 压缩 和 解压 缩 之 后 的 图 像 。 可 以 
看 出 图 像 质量 有 轻微 损伤 ， 但 是 数字 基本 完好 无 损 。 
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图 8-9: MNIST 数 据 集 压 缩 一 一 保留 95% 的 方差 








pca = PCA(n_components = 154) 
X_mnist_reduced = pca.fit_ transform(X_mnist 
X_mnist_recovered = pca.inverse transform(X mnist_reduced) 





逆转 换 的 方程 如 公式 8-3 所 示 。 


公式 8-3: PCA 逆 转换 ， 回 到 原始 维度 


X = X,， .WW, 


recovered d-pro ] 
增 量 PCA 


前 面 关 于 主 成 分 分 析 的 种 种 实现 ， 问 题 在 于 ， 它 需要 整个 训练 集 都 
进入 内 存 ， 才 能 运行 SVD 算 法 。 幸 运 的 是 ， 我 们 有 增 量 主 成 分 分 析 
(IPCA) 算法 : 你 可 以 将 训练 集 分 成 一 个 个 小 批量 ， 一 次 给 IPCA 算 法 
喂 一 个 。 对 于 大 型 训练 集 来 说 ， 这 个 方法 很 有 用 ， 并 且 还 可 以 在 线 应 用 
PCA (也 就 是 新 实例 产生 时 ， 算 法 开始 运行 )。 


以 下 代码 将 MNIST 数 据 集 分 成 100 个 小 批量 (使 用 NumpPy 的 
array_split〈) 函数 ) ， 将 它们 提供 给 Scikit-Learn 的 
IncrementalPCA (http://goo.gVFmdhUP) 乌 ， 将 数据 集 降 到 154 维 〈 跟 之 
前 一 样 ) 。 注 意 ， 你 必须 为 每 个 小 批量 调用 partial_fit () 方法 ， 而 不 是 
之 前 整个 训练 集 的 fit 〈) 方法 : 











from sklearn.decomposition import IncrementalPCA 


n_batches = 100 

inc_pca = IncrementalPCA(n_components=154) 

for X_batch in np.array_split(X mnist, n_batches): 
inc_pca.partial fit(Xx_ batch) 


xX_ mnist_reduced = inc_pca.transform(X_mnist) 





或 者 ， 你 也 可 以 使 用 NumPy 的 memmap 类 ， 它 允许 你 巧妙 地 操控 一 
个 存储 在 磁盘 二 进 制 文件 里 的 大 型 数组 ， 就 好 似 它 也 完全 在 内 存 里 一 
样 ， 而 这 个 类 (memmap) 仅 在 需要 时 加 载 内 存 中 需要 的 数据 。 由 于 
IncrementalPCA 在 任何 时 间 都 只 使 用 数组 的 一 小 部 分 ， 因 此 内 存 的 使 用 
情况 仍然 受 控 ， 这 时 可 以 调用 常用 的 人 () 方法 ， 如 以 下 代码 所 示 : 











xX mm = np.memmap(filename, dtype="float32", mode="readonly", shape=(m, n)) 


batch_size = m // n_batches 
inc_pca = IncrementalPCA(n_components=154, batch_size=batch_size) 
inc_pca.fit(X_mm) 





随机 PCA 


Scikit-Leam 还 提供 了 另 一 种 实施 PCA 的 选项 ， 称 为 随机 PCA。 这 是 
一 个 随机 算法 ， 可 以 快速 找到 前 d 个 主 成 分 的 近似 值 。 它 的 计算 复杂 把 
是 O (mxd?) +O (3) ， 而 不 是 O (mxn2) +O (n3) ， 所 以 当 d 远 小 于 n 
时 ， 它 比 前 面 提 到 的 算法 要 快 得 多 。 





rnd_pca = PCA(n_components=154, svd_solver="randomized") 
X_reduced = rnd_pca.fit_ transform(X_mnist) 





[1| “On Lines and Planes of Closest Fit to Systems of Points in Space”， 
K.Pearson (1901) 。 

[2] Scikit-Learn 使 用 的 算法 记录 在 “Incremental Learning for Robust Visual 
Tracking”，D.Ross 等 人 (2007) 。 


核 主 成 分 分 析 


第 5 章 讨 论 了 核 技 巧 ， 它 是 一 种 数学 技巧 ， 隐 性 地 将 实例 映射 到 非 
常 高 维 的 空间 《〈 称 为 特征 空间 ) ， 从 而 使 文 持 癌 量 机 能 够 进行 非 线性 分 
类 和 回归 。 回 想 一 下 ， 高 维特 征 空 间 的 线性 决策 边界 如 何 对 应 于 原始 空 
间 中 复杂 的 非 线 性 决策 边界 。 


事实 证 明 ， 同 样 的 技巧 也 可 应 用 于 PCA， 使 复杂 的 非 线 性 投影 降 维 
成 为 可 能 。 这 就 是 所 谓 的 核 主 成 分 分 析 (kPCA) 
(http://goo.g/51QT5Q) 。 山 它 擅长 在 投影 后 保留 实例 的 集群 ， 有 时 其 
至 也 能 展开 近似 于 一 个 扭曲 流 形 的 数据 集 。 


例如 ， 下 面 的 代码 使 用 Scikit-Leam 的 KernelPCA， 执 行 带 有 RBF 核 
函数 的 kPCA (有 关 RBF 核 和 其 他 核 的 更 多 细节 ， 请 参阅 第 5 章 ) : 








from sklearn.decomposition import KernelPCA 


rbf_pca = KernelPCA(n_components = 2, kernel="rbf", gamma=0.04) 
X_reduced = rbf_pca.fit_ transform(X) 


图 8-10 显 示 了 使 用 不 同 核 函数 降 到 二 维 的 瑞士 卷 ， 包 括 线性 核 函 数 
(相当 于 直接 使 用 PCA 类 ) 、RBF 核 函数 ， 以 及 sigmoid 核 函数 
(Logistic) 。 
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图 8-10: 使 用 不 同 核 函 数 的 KPCA 将 瑞士 卷 降 至 2D 
选择 核 函 数 和 调整 超 参数 


由 于 kPCA 是 一 种 无 监督 的 学 习 算 法 ， 因 此 没有 明显 的 性 能 指标 来 
帮 你 选择 最 佳 的 核 函 数 和 超 参 数值 。 而 降 维 通常 是 监督 式 学 习 任 务 〈 例 
如 分 类 ) 的 准备 步骤 ， 所 以 可 以 使 用 网 格 搜索 ， 来 找到 使 任务 性 能 最 佳 
的 核 和 超 参数 。 例 如 ， 下 面 的 代码 创建 了 一 个 两 步 流 水 线 ， 首 先 使 用 
kPCA 将 维度 降 至 二 维 ， 然 后 应 用 逻辑 回归 进行 分 类 。 接 下 来 使 用 
GridSearchCV 为 kPCA 找 到 最 佳 的 核 和 gamma 值 ， 从 而 在 流水 线 最 后 获 
得 最 准确 的 分 类 : 





from sklearn.model selection import GridSearchcVv 
from sklearn.linear_model import LogisticRegression 
from sklearn.pipeline import Pipeline 


clf = Pipeline([ 
("kpca", KernelPCA(n_components=2)), 
("log_reg", LogisticRegression()) 


]) 


param_grid = [{ 
"kpca gamma": np.linspace(0.03, 0.05, 10), 
"kpca kernel": ["rbf", "sigmoid"] 


}] 


grid_search = GridSearchcVv(clf, param grid, cv=3) 
grid_search.fit(X, y) 


最 佳 的 核 和 超 参数 可 以 通过 变量 best_params_ 获 得 : 


>>> print(grid_search.best_params_) 
{'kpca gamma': 0.043333333333333335, 'kpca_ kernel': 'rbf'} 


还 有 一 种 完全 不 受 监督 方法 ， 就 是 选择 重建 误差 最 低 的 核 和 超 参 
数 。 但 是 这 个 重建 不 像 线 性 PCA 重 建 那样 容易 。 我 们 来 看 看 原因 ， 图 8- 
11 显 示 了 瑞士 卷 的 原始 3D 数 据 集 (左上) ， 和 应 用 RBF 核 的 kPCA 得 到 
的 二 维 数据 集 (右上) 。 因 为 核 技 巧 ， 所 以 这 在 数学 上 等 同 于 : 通过 特 
征 映射 函数 多 ， 将 训练 集 映射 到 无 限 维度 的 特征 空间 ( 右 下 ) ， 然 后 用 
线性 PCA 将 转换 后 的 训练 集 投 影 到 2D 平 面 。 注 意 ， 如 果 我 们 对 一 "i 
降 维 的 实例 进行 线性 PCA 首 转换， 重建 的 点 将 存在 于 特征 空间 ， 而 不 是 
原始 空间 中 例如， 图 中 x 表示 的 那个 点 ) 。 而 这 里 特征 空间 是 无 限 维 
度 的 ， 所 以 我 们 无 法 计算 出 重建 点 ， 因此 也 无 法 计算 出 真实 的 重建 误 
差 。 幸 好 ， 我 们 可 以 在 原始 空间 中 找到 一 个 点 ， 使 其 映射 接近 于 重建 
点 。 这 被 称 为 重建 原 像 。 一 旦 有 了 这 个 原 像 ， 你 就 可 以 测量 它 到 原始 实 
例 的 平方 距离 。 最 后 ， 便 可 以 选择 使 这 个 重建 原 像 误差 最 小 化 的 核 和 超 
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图 8-11: Kernel PCA 和 重建 原 像 误 差 


要 怎么 执行 这 个 重建 昵 ? 方法 之 一 是 训练 一 个 监督 式 回 归 模 型 ， 以 
投影 后 的 实例 作为 训练 集 ， 并 以 原始 实例 作为 目标 。 如 果 你 设置 
fit inverse _transform=True，Scikit-Learn 会 自动 执行 该 操作 ， 如 下 代码 所 
示 : 乌 





rbf_pca = KernelPCA(n_components = 2, kernel="rbf", gamma=0.0433, 
fit_inverse_ transform=True) 

X_reduced = rbf_pca.fit_transform(X) 

X_preimage = rbf_pca.inverse_ transform(X_reduced) 





We 为 fit_ inverse_transform=False， 并 且 KernelPCA 没 有 


inverse transform () 方法 。 只 有 在 设置 fit_inverse transform=True 时 才 
会 创建 该 方法 。 


然后 你 就 可 以 计算 重建 原 像 误差: 





>>> from sklearn.metrics import mean_ squared_ error 
>>> mean_squared error(X, XxX_preimage) 
32.786308795766132 





现在 ， 你 可 以 使 用 交叉 验证 的 网 格 搜索 ， 来 寻找 使 这 个 原 像 重建 误 
兰 最 小 的 核 和 超 参 数 。 


[1] “Kernel Principal Component Analysis”，B.Sch6lkopf、A.Smola 和 
K.Miiller (1999) 。 

[2] Scikit-Learn 使 用 的 算法 是 基于 一 种 核 岭 回归 算法 ， 由 Gokhan 
H.Bakir、Jason Weston 和 Bernhard Scholkopf 在 论文 “Leaming to Find Pre- 
images”(http://goo.gl/d0ydY6) 中 提出 (Tubingen，Germany: Max 
Planck Institute for Biological Cybernetics, 2004) 。 








局 部 线性 岁入 


局 部 线性 嵌入 〈https:/goo.gViAgbns) (LLE) 出 是 另 一 种 非常 强大 
的 非 线 性 降 维 (NLDR) 技术 。 不 像 之 前 的 算法 依赖 于 投影 ， 它 是 一 种 
流 形 学 习 技术 。 简 单 来 说 ，LLE 首 先 测 量 每 个 算法 如 何 与 其 最 近 的 邻 大 
(c.n.) 线性 相关 ， 然 后 为 训练 集 寻 找 一 个 能 最 大 程度 保留 这 些 局 部 关 
系 的 低 维 表示 (细节 稍 后 解释 ) 。 这 使 得 它 特别 擅长 展开 弯曲 的 流 形 ， 
特别 是 没有 太 多 噪声 时 。 


例如 ， 下 面 的 代码 使 用 Scikit-Learn 的 LocallyLinearEmbedding 类 来 
展开 瑞士 卷 。 得 到 的 二 维 数 据 集 如 图 8-12 所 示 。 正 如 你 所 见 ， 瑞 士 卷 完 
全 展开 ， 实 例 之 间 的 距离 局 部 保存 得 很 好 。 不 过 从 整体 来 看 ， 距 离 保存 
得 不 够 好 : 展开 的 瑞士 卷 左 侧 被 挤 压 ， 而 右 侧 被 拉 长 。 尺 管 如 此 ， 对 于 
流 形 建 模 来 说 ，LLE 还 是 做 得 相当 不 错 。 




















from sklearn.manifold import LocallyLinearEmbedding 


lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10) 
X_reduced = lle.fit_ transform(X) 





使 用 LLE 展开 瑞士 关 
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图 8-12: 使 用 LLE 展 开瑞 士 卷 


下 面 是 LLE 的 工作 原理 : 首先 ， 对 于 每 个 训练 实例 x “7 ， 算 法 会 识 
别 出 离 它 最 近 的 k 个 邻居 〈 上 面 的 代码 中 k=10) ， 然 后 尝试 将 x "i? 重建 
为 这 些 邻 居 的 线性 函数 。 更 具体 来 说 ， 就 是 要 找到 权重 wi,j 使 实例 x 和 

2 | ; 

和 六 之 间 的 距离 平方 最 小 ， 如 果实 例 x“? 不 是 实例 x “的 k 个 最 
近 的 邻居 之 一 ，wi, ji 二 0。 因 此 ，LLE 的 第 一 步 就 是 公式 8-4 所 示 的 约束 
优化 问题 ， 其 中 W 是 包含 所 有 权重 wi, ;的 权重 矩阵 ， 第 二 个 约束 则 是 简 
单 地 对 每 个 训练 实例 x “i? 的 权重 进行 归 一 。 


公式 8-4: LLE 第 一 步 : 对 局 部 关系 线性 建 模 











lm n 


八 4 
W = argmin 》 x Dw x 
- ~ 








这 一 步 完 成 后 ， 权重 矩阵 W (包含 权重 ”可 》 对 训练 实例 之 间 的 
局 部 线性 关系 进行 编码 。 现 在 ， 第 二 步 就 是 要 将 训练 实例 映射 到 一 个 d 
维 空间 Cd<n) ， 同 时 尽 可 能 保留 这 些 局 部 关系 。 如 果 z (i) 是 实例 





Ws 

x “在 这 个 d 维 空间 的 映像 ， 那 么 我 们 希望 从 z "Y? a | 

方 珊 民 可 能 人 这 个 想法 产生 了 如 公式 8-5 描 述 的 一 个 无 约束 优化 问 
。 它 看 起 来 与 第 一 步 类 似 ， 但 不 是 保持 固定 距离 寻找 最 佳 权重 ， 而 是 

保 等 固定 取 重 ， 并 在 低 维 空间 中 找到 每 个 实例 映像 的 最 佳 位 置 。 注 意 Z 

是 包含 所 有 zi? 的 矩阵 。 


公式 8-5: LLE 第 二 步 : 保留 关系 并 降 维 


[和 Y zo 
ji=1 


八 下 
4 = aremin >», 
1h 
| 

Scikit-Leam 的 LLE 实 现 ， 计 算 复 杂 度 如 下 : 寻找 k 个 最 近邻 为 O(m 
log (m) n ”log (k) ) ; 优化 权重 为 O (mnk3) ; 构建 低 维 表示 ， 为 
O (dm2) 。 很 不 幸 ， 最 后 一 个 表达 式 里 的 m* 说 明 这 个 算法 很 难 扩展 应 
用 到 大 型 数据 集 。 


























[1|] “Nonlinear Dimensionality Reduction by Locally Linear Embedding”， 
S.Roweis 和 L.Saul (2000) 。 


其 他 降 维 拉 巧 


还 有 许多 其 他 的 降 维 技术 ， 部 分 可 以 在 Scikit-Learn 中 找到 。 以 下 是 


:多 维 缩放 (MDS) 算法 ， 保 持 实 例 之 间 的 距离 ， 降 低 维度 《〈 见 图 
8-13) 。 


-等 度量 映射 〈Isomap) 算法 ， 将 每 个 实例 与 其 最 近 的 邻居 连接 起 
来 ， 创 建 连接 图 形 ， 然 后 保留 实例 之 间 的 这 个 测 地 距离 ， 包 降低 维度 。 


-分布 随机 近邻 侍 入 CSNE) 算法 在 降低 维度 时 ， 试 图 让 相似 的 
实例 役 此 靠近 ， 不 相似 的 实例 役 此 远离 。 它 主要 用 于 可 视 化 ， 盛 其 是 将 
高 维 空间 中 的 实例 集群 可 视 化 (例如 ， 对 MNIST 图 像 进行 二 维 可 视 


线性 判别 (LDA) 实际 上 是 一 种 分 类 算法 ， 但 是 在 训练 过 程 中 ， 
它 会 学 习 类 别 之 间 最 有 区 别 的 轴 ， 而 这 个 轴 正 好 可 以 用 来 定义 投影 数据 
的 超 平 面 。 这 样 做 的 好 处 在 于 投影 上 的 类 别 之 间 会 尽 可 能 的 分 开 ， 所 以 
en 
乡 没 。 
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图 8-13: 使 用 不 同 技术 将 瑞士 郑 数 据 集 降 为 2D 
人 图 中 两 个 市 反之 间 的 测 地 距离 是 两 个 节点 之 间 最 短路 径 上 的 市 反 


“| 








练习 
1. 降 低 数据 集 维度 的 主要 动机 是 什么 ? 有 什么 主要 弊端 ? 
2. 什 么 是 维度 的 诅咒 ? 


3 一 旦 数据 集 被 降 维 ， 是 否 还 有 可 能 逆转 ? 如 果 有 ， 怎 么 做 ? 如 宋 
没有 ， 为 什么 ? 


4.PCA 可 以 用 来 给 高 度 非 线性 数据 集 降 维 么 ? 


5. 假 设 你 在 一 个 1000 维 数据 集 上 执行 PCA， 方 差 解释 比 设 为 959%。 
产生 的 结果 数据 集 维度 是 多 少 ? 


6. 常 规 PCA、 增 量 PCA、 随 机 PCA 及 核 PCA 各 适用 于 何 种 情况 ? 
7. 如 何在 你 的 数据 集 上 评估 降 维 算法 的 性 能 ? 
8. 链 接 两 个 不 同 的 降 维 算法 有 意义 么 ? 


9. 加 载 MNIST 数 据 集 〈 第 3 章 中 介绍 ) ， 将 其 分 为 一 个 训练 集 和 一 
个 测试 集 ( 将 前 60000 个 实例 用 于 训练 ， 其 余 10000 个 用 来 测试 ) 。 在 训 
练 集 上 训练 一 个 随机 森林 分 类 器 ， 并 记录 训练 时 长 ， 然 后 在 测试 集 上 对 
结果 模型 进行 评估 。 接 下 来 ， 用 PCA 给 数据 集 降 维 ， 方 差 解释 比 设 为 
95%。 在 降 维 后 的 新 数据 集 上 训练 一 个 新 的 随机 森林 分 类 器 ， 看 看 需要 
多 长 时 间 ， 是 不 是 快 得 多 ? 最后， 在 测试 集 上 评估 分 类 器 ， 跟 前 一 个 分 
类 器 比 起 来 如 何 ? 


10. 使 用 -SNE 将 MNIST 数 据 集 降 至 两 个 维度 ， 然 后 用 Matplotlib 绘 制 
结果 。 你 可 以 通过 散 点 图 一 一 用 10 个 不 同 的 颜色 来 代表 每 个 图 像 的 目标 
类 别 ， 或 者 ， 你 也 可 以 在 每 个 实例 的 位 置 写 入 彩色 数字 ， 甚 至 你 还 可 以 
绘制 数字 图 像 本 身 的 缩小 版 〈 如 果 你 绘制 所 有 数字 ， 视 觉 效 果 会 太 凌 
乱 ， 所 以 你 要 么 绘制 一 个 随机 样本 ， 要 么 选择 单个 实例 ， 但 是 这 个 实例 
的 周围 最 好 没有 其 他 绘制 的 实例 ) 。 现 在 你 应 该 得 到 了 一 个 很 好 的 可 视 
化 结果 及 各 自分 开 的 数字 集群 。 尝 试 使 用 其 他 降 维 算法 ， 如 PCA、LLE 
或 MDS 等 ， 比 较 可 视 化 结果 。 








以 上 练习 的 解答 可 从 附录 A 中 获得 。 


第 二 部 分 “神经 网 络 和 深度 学 习 
第 9 章 ” 运行 TensorFlow 
TensorFlow 是 一 个 用 于 数值 计算 的 强大 开源 软件 库 ， 非 常 适合 大 型 


机 器 学 习 。 它 背后 的 原理 很 简单 : 首先 在 Python 中 定义 一 个 用 来 计算 的 
图 ( 见 图 9-1) ， 然 后 TensorFlow 就 会 使 用 这 个 图 ， 并 用 优化 过 的 C++ 代 


码 来 执行 计算 。 
生生 fr yr yty+? 











图 9-1: 一 个 简单 的 计算 图 


最 重要 的 是 ，TensorFlow 可 以 将 一 个 计算 图 划分 成 多 个 子 图 ， 然 后 
并 行 地 在 多 个 CPU 或 者 GPU 上 执行 〈 见 图 9-2) 。TensorFlow 还 支持 分 布 
式 计 算 ， 这 样 可 以 在 合理 的 时 间 内 ， 通 过 在 数 百 台 服 务 器 上 分 割 计算 ， 
在 庞大 的 训练 集 上 训练 巨大 的 神经 网 络 〈 详 见 第 12 章 ) 。TensorFlow 可 
以 在 由 数 十 亿 个 实例 组 成 的 训练 集 上 训练 具有 数 百 万 个 参数 的 神经 网 
络 ， 每 个 实例 具有 数 百 万 个 特征 。 这 些 其 实 也 都 不 足 为 奇 ， 毕 葛 
TensorFlow 是 由 Google ”Brain 小 组 开发 的 ， 而 且 Google 众 多 的 大 型 服务 
(比如 Google Cloud Speech、Google Photos、Google Search 等 ) 背后 都 
有 TensorFlow 的 支持 。 





在 TensorFlow 从 2015 年 11 月 宣布 开源 的 时 候 ， 深 度 学 习 领 域 已 经 存 
在 众多 流行 的 开源 库 〈 表 9-1 中 列 出 了 一 些 ) 。 不 过 ，TensorFlow 凭 借 目 
己 清晰 的 设计 、 扩 展 性 、 灵 活性 出 和 完善 的 文档 (更 别提 Google 的 名 字 
了 ) 很 快 就 排 在 了 这 个 列表 的 顶 问 。 简 而 言 之 ，TensorFlow 莱 有 具 灵活 性 
和 扩展 性 ， 可 直接 供 生产 系统 使 用 ， 其 他 已 有 的 框架 仅仅 能 做 到 这 三 者 
中 的 两 个 。 以 下 是 TensorFlow 的 一 些 亮 点 : 











图 9-2: 多 CPU/GPU/ 服 务 器 上 的 并 行 计 算 


: 它 可 以 运行 在 Windows、Linux、macOS 和 移动 设备 上 ， 包 括 iOS 和 
Android 。 


它 提供 了 一 个 非常 简单 的 名 叫 TF.LearnD 


(tensorflow.contrib.learn) 的 Python API 来 兼容 Scikit-Learn。 你 很 快 就 
可 以 看 到 ， 只 逢 要 几 行 代码 ， 你 束 可 以 用 它 来 训练 各 种 类 型 的 神经 网 
络 。 这 个 库 的 前 里 是 一 个 独立 的 项 目 ， 叫 作 Scikit-Flow 或 者 简称 
skflow) 。 





: 它 还 提供 另 一 个 叫 作 TF-Slim (tensorflow.contrib.slim〉 的 简单 API 
来 简化 神经 网 络 的 构建 、 训 练 和 评估 。 


.在 TensorFlow 之 上 ， 独 立 构建 了 一 些 高 级 的 API， 比 如 
Keras (http://keras.io) 和 Pretty 
Tensor (https://github.com/google/prettytensor/) 。 


' 它 的 Python API 提 供 了 很 多 灵活 的 方式 《代价 是 很 高 的 复杂 性 ) 来 
创建 所 有 类 型 的 计算 ， 包 括 所 有 你 能 想到 的 神经 网 络 架 构 。 


它 包 含 了 很 多 非常 高 效 的 、 用 C++ 实现 的 机 器 学 习 操 作 ， 特 别 是 用 
来 构建 神经 网 络 的 操作 。 另 外， 通过 它 的 API， 还 可 以 用 C++ 来 实现 目 
己 的 高 性 能 操作 。 


' 它 为 搜索 最 小 化 成 本 函数 的 参数 提供 了 很 多 高 度 优化 的 节点 。 
TensorFlow 会 目 动 计算 你 定义 的 成 本 函数 的 梯度 ， 所 以 用 起 来 会 非常 容 
易 ， 这 称 为 目 动 微分 《或 者 autodiff) 。 


. 它 还 提供 一 个 非常 强大 的 叫 作 TensorBoard 的 可 视 化 工具 ， 可 以 用 
来 浏览 计算 图 ， 碍 看 学 习 曲 线 等 。 


.Google 还 启动 了 一 个 运行 TensorFlow 计 算 图 
Chttps:/cloud.google.com/ml) 的 云 服 务 。 


.最 后 ， 它 有 一 个 热情 且 乐 于 助人 的 开发 团队 和 一 个 不 断 增 长 、 持 
续 改 进 它 的 社区 。 它 是 GitHub 上 最 受 欢迎 的 开源 项 目 之 一 ， 有 越 来 越 多 
的 项 目 都 是 构建 于 其 上 的 (参见 源 代码 https://www.tensorflow.org/ 

或 https://github.com/jtoy/awesome-tensorflow) 。 如 果 遇 到 了 有 具体 的 技术 
问题 ， 可 以 在 http://stackoverflow.com/ 提 问 ， 并 将 问题 标记 

为 "tensorflow"。 可 以 在 GitHub 上 记录 bug 或 者 发 起 特性 请 求 。 对 于 普通 
的 讨论 ， 请 加 入 Google 讨 论 组 (http://goo.g/N7kRF9) 。 


这 一 章 会 讲解 TensorFlow 的 基础 知识 ， 从 安装 ， 到 创建 ， 执 行 ， 保 











存 ， 可 视 化 简单 的 计算 图 。 掌 握 这 些 基础 知识 对 于 构建 自己 的 第 一 个 神 
经 网 络 〈 我 们 会 在 下 一 章 讨论 ) 来 说 非常 重要 。 


表 9-1: 开源 的 深度 学 习 库 〈 这 不 是 一 个 详尽 的 清单 ) 





AP| 所 用 语言 。 操 开源 时 间 
(只 Python、CH+、Matab Limx macOS、 Windows YJa UCBekeley(BVLC) 2013 
Deepleaming4} Java, Scala, Clorwe Limx macOS、 Windows, Andoid A Gibson、 JPatterson 2014 
20 python, R Linux、macOS、 Windows H20.al 2014 
MXNet python、 C+H+、others Linux、 macOS、 Windows, 10$、 Android DMLC 2015 
TensorFlow Python, C+ Linux, macOS, Windows, 10$、 Android Google 2015 
Theano Python Linux、 macOS、i0S University of Montreal 2010 
Torch CH Lua Linux macOS$、 10$、 Android R. Collobatt, K, Kavikeuoglu, 2002 
CFarabet 


[1] ”TensorFlow 不 局 限 在 神经 网 络 或 者 机 器 学 习 ， 如 果 你 愿意 ， 甚 至 可 
以 用 它 来 运行 量子 物理 仿真 。 
[2] 不 要 与 TFLearn 库 混 消 ，TEFLearn 库 是 一 个 独立 的 项 目 。 


安 猴 


那 就 开始 吧 。 假 设 你 已 经 按照 第 2 章 里 的 步骤 安装 了 Jupyter 和 Scikit- 
Learmn， 这 样 你 就 可 以 简单 地 用 pip 安 装 TensorFlow 了。 如 果 你 已 经 用 
virtualenv 创 建 了 独立 的 环境 ， 那 么 首先 你 得 激活 它 : 





$ cd $ML_PATH # Your ML working directory (e.g., $HOME/m]l) 
$ source env/bin/activate 





接 下 来 ， 安 装 TensorFlow: 





$ pip3 install --upgrade tensorflow 





Ma 启动 GPU 支 持 ， 需 要 安装 tensorflow-gpu， 而 不 是 tensorflow， 
详 见 第 12 章 。 


用 下 面 这 条 命令 来 检查 是 否 安装 成 功 。 如 果 安装 成 功 ， 这 条 命令 的 
输出 应 该 是 : 











$ python3 -c "import tensorflow; print(tensorflow. version )' 
1.0.0 





创建 一 个 计算 图 并 在 会 话 中 执行 
下 面 这 段 代码 会 创建 图 9-1 中 描述 的 图 : 





import tensorflow as tf 


f.,Variable(3, name="x") 
f.,Variable(4, name="y") 


x=t 
y=t 
f= x*x*y +y+2 





就 这 么 简单 ! 重要 的 是 ， 要 理解 这 段 代码 其 实 并 没有 执行 任何 的 计 
算 ， 尽 管 看 起 来 有 点 像 〈 特 别 是 最 后 一 行 ) ， 它 仅仅 是 创建 了 一 个 计算 
图 而 已 。 事 实 上 ， 它 连 变量 都 还 没有 初始 化 。 要 执行 这 个 图 ， 需 要 打开 
一 个 TensorFlow 的 会 话 ， 然 后 用 它 来 初始 化 变量 并 求 值 f{。 一 个 
TensorFlow 的 会 话 会 将 计算 分 发 到 诸如 CPU 和 GPU 设备 上 并 执行 ， 它 还 
持 有 所 有 变量 的 值 出 。 下 面 的 代码 创建 一 个 会 话 ， 初 始 化 所 有 变量 ， 然 
后 求 值 ， 最 后 f 天 闭 整 个 会 话 ( 释 放 占 用 的 资源 ) : 





>>> sess = tf.Session() 

>>> sess.run(x.initializer) 
>>> sess.run(y.initializer) 
>>> result = sess.run(f) 
>>> print(result) 
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>>> sess.close() 





每 次 都 重复 sess.run〈() 看 起 来 有 些 条 拙 ， 好 在 有 更 好 的 方式 : 





with tf,.Session() as sess: 
x.initializer.run() 
y.initializer.run() 
result = f.eval() 





在 with 块 中 ， 会 有 一 个 默认 会 话 。 调 用 x.initializer.run 等 价 于 调用 
tf.get_default_session () .run (x.initializer) ， 同 样 ，feavl 等 价 于 
tf.get_default _ session () .run (f) 。 这 种 写法 不 仅 可 以 增加 可 读 性 ， 还 
可 使 会 话 在 块 中 的 代码 执行 结束 后 自动 关闭 。 


除了 手工 为 每 个 变量 调用 初始 化 器 之 外 ， 还 可 以 使 用 











global_variables_ ee () 函数 来 完成 同样 的 动作 。 注 意 ， 这 个 操作 
并 不 会 立刻 做 初始 化 ， 它 只 是 在 图 中 创建 了 一 个 节点 ， 后 
话 执行 时 初始 化 所 有 变量 ; 





init = tf.global variables initializer() # prepare an init node 


with tf,Sesslion() as sess: 
init.run() # actually initialize all the variables 
result = f.eval() 





在 Jupyter 或 者 在 Python shell 中， 可 以 创建 一 个 InteractiveSession。 
它 和 常规 会 话 的 不 同 之 处 在 于 InteractiveSession 在 创建 时 会 将 自己 设置 
为 默认 会 话 ， 因 此 你 无 须 使 用 with 块 〈 不 过 需要 在 结束 之 后 手工 关闭 会 
话 ) : 








>>> sess = tf.InteractiveSession() 
>>> init.run() 

>>> result = f.eval() 

>>> print(result) 
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>>> sess.close() 





一 个 TensorFlow 程 序 通常 可 以 分 成 两 部 分 : 第 一 部 分 用 来 构建 一 
计算 图 〈 称 为 构建 阶段 ) ， 第 二 部 分 来 执行 这 个 图 ( 0 
构建 阶段 通常 会 构建 一 个 计算 图 ， 这 个 图 用 来 展现 ML 模型 和 训 练 所 需 
的 计算 。 执 行 阶段 则 重复 地 执行 每 一 步 训练 动作 《比如 每 个 小 批量 执行 
一 步 ) ， 并 逐步 提升 模型 的 参数 。 我 们 待 会 看 一 个 相关 的 例子 。 


[1 在 分 布 式 TensorFlow 中 ， 变 量 的 值 存储 在 服务 器 而 不 是 会 话 中 ， 详 


青 参见 第 12 章 。 
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一 一 


管理 图 
你 创建 的 所 有 节点 都 会 自动 添加 到 默认 图 上 ; 





>>> x1 = tf.Variable(1) 
>>> x1i.graph is tf.get default_graph() 
True 





大 部 分 情况 下 ， 这 都 不 是 问题 ， 不 过 有 时 候 你 可 能 想 要 管理 多 个 互 
不 依赖 的 图 。 可 以 创建 一 个 新 的 图 ， 然 后 用 with 块 临时 将 它 设置 为 默认 
图 : 





>>> graph = tf.Graph() 
>>> with graph.as_default(): 
x2 = tf.Variable(2) 


>>> x2.graph is graph 

True 

>>> x2.graph is tf.get default_graph() 
False 








Wt opyierth 《或 者 Python ”shell 中 〉， 做 实验 时 你 经 常会 多 次 执 
行 同一 条 命令 。 这 样 可 能 会 在 同一 个 图 上 添加 了 很 多 重复 节点 。 一 种 做 
法 是 重启 Jupyter 内 核 〈 或 者 Python shell ) ， 更 方便 的 做 法 是 通过 
tf.reset_default_graph 〈) 来 重 置 默认 图 。 


市 反 值 的 生命 周期 


当 求 值 一 个 节点 时 ，TensorFlow 会 自动 检测 该 节点 依赖 的 节点 ， 并 
先 对 这 些 节点 求 值 ， 比 如 在 下 面 这 个 例子 中 : 





f,constant(3) 
2 
5 
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with tf,Sesslion() as sess: 
print(y.eval()) # 10 
print(z.eval()) # 15 





首先 ， 这 段 代 码 定义 了 一 个 非常 简单 的 计算 图 。 然 后 ， 它 启动 一 个 
会 话 ， 并 开始 执行 计算 图 ， 求 值 y: TensorFlow 自 动 检 测 到 y 依 赖 于 w， 
因为 x 依赖 于 w， 所 以 它 会 先 求 值 w， 然 后 是 x， 然 后 是 y， 并 返回 y 的 
值 。 最 后 ， 这 上段 代码 执行 到 对 z 求 值 的 时 候 。TensorFlow 发 现 需要 先 求 
值 w 和 x。 需 要 注意 的 是 ，TensorFlow 不 会 复 用 上 一 步 求 值 的 w 和 x 的 结 
果 。 简 而 言 之 ，w 和 x 的 值 会 计算 两 次 。 


在 图 的 每 次 执行 间 ， 所 有 节点 值 都 会 被 丢弃 ， 但 是 变量 的 值 不 会 ， 
因为 变量 的 值 是 由 会 话 维护 的 《队列 和 阅读 器 也 会 维护 一 些 状 态 ， 详 见 
eo 。 变 量 的 生命 周期 从 初始 化 器 的 执行 开始 ， 到 关闭 会 话 才 结 

















对 于 上 述 代 码 ， 如 果 你 不 希望 对 y 和 z 重 复 求 值 ， 那 么 必须 告诉 
TensorFlow 在 一 次 图 的 执行 中 就 完成 y 和 z 的 求 值 ， 代 人 码 如 下 : 





with tf.Session() as sess.: 
y_val, z_val = sess.run([y, z]) 


print(y_val) # 10 
print(z_val) # 15 








然 人 在 单 进程 的 TensorFlow 中 ， 即使 它们 共享 同一 个 计算 图 ， 多 个 
会 话 之 间 仍 然 互 相隔 离 ， 不 共享 任何 状态 (每 个 会 话 对 每 个 变量 都 有 有 自 
已 的 拷贝 ) 。 对 于 分 布 式 TensorFlow 〈 见 第 12 章 ) ， 变 量 值 保存 在 每 个 
服务 器 上 ， 而 不 是 会 话 中 ， 所 以 多 个 会 话 可 以 共享 同一 变量 。 








TensorFlow 中 的 线性 回归 


TensorFlow 中 的 操作 (简称 op〉 可 以 接受 任意 数量 的 输入 ， 也 可 以 
产生 任意 数量 的 输出 。 举 个 例子 ， 加 法 和 乘法 操作 都 接受 两 个 输入 ， 并 
产生 一 个 输出 。 常 量 和 变量 ( 称 为 源 操作 〉 则 没有 输入 。 输 入 和 输出 都 
是 多 维 数组 ， 叫 作 张 量 〈 这 也 是 TensorFlow 名 字 的 来 源 ) 。 束 像 NumpPy 
中 的 数组 一 样 ， 张 量 也 有 类 型 和 形状 。 事 实 上 ， 在 Python API 中 ， 张 量 
可 以 用 NumPy 中 的 ndarrays 来 表示 。 通 各 它们 会 用 来 保存 浮 点 型 数据 ， 

不 过 也 可 以 用 它 来 存储 字符 串 〈 任 意 的 字 节 数组 ) 。 


目前 看 到 的 例子 中 ， 张 量 都 只 包含 了 单个 标量 值 ， 但 可 以 对 任意 形 
状 的 数组 进行 计算 。 比 如 ， 下 面 的 代码 展示 了 如 何 操作 二 维 的 数组 来 计 
算 加 州 的 住房 数据 的 线性 回归 (在 第 2 章 中 有 介绍 ) 。 首 先 ， 获 取 数 
据 。 然 后 ， 对 所 有 训练 实例 都 添加 一 个 额外 的 偏 移 (xo=1)〉 (由 于 使 用 
了 Numpy， 所 以 这 是 立刻 执行 的 ) 。 接 下 来 ， 创 建 两 个 TensorFlow 的 常 
量 节点 ，x 和 y 以 及 目标 出 ， 代 码 中 还 使 用 了 TensorFlow 提 供 的 矩阵 操作 
来 定义 theta。 这 些 和 矩阵 相关 函数 transpose () 、matmul () 和 
matrix_inverse〈) 都 是 自 解释 的 ， 与 以 往 一 样 ， 它 们 不 会 立即 执行 ， 现 
在 只 是 定义 了 图 中 的 节 抬 ， 具 体 计 算 要 等 到 图 运行 时 才 会 发 生 。 你 可 能 
已 经 看 出 来 了 ，theta 的 定义 用 的 是 正规 方程 (Normal Equation) (0 
=XI.X) 二.XLYy， 见 第 4 章 ) 。 最 后 ， 代 码 创 建 会 话 并 对 theta 求 值 。 

















import numpy as n 
from sklearn.datasets import fetch california housing 


housing = fetch_california_ housing() 
m, Nn = housing.data.shape 
housing_data plus_bias = np.c_[np.ones((m, 1)), housing.datal] 


X = tf.constant(housing_ data plus_ bias, dtype=tf.float32, name="X") 

y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y") 
XT = tf.transpose(X) 

theta = tf.matmul(tf.matmul(tf.matrix_inverse(tf.matmul(XT, XxX)), XxT), y) 


with tf.Session() as sess: 
theta_value = theta.eval() 





与 直接 用 NumPy 来 计算 正规 方程 相 比 ， 上 述 代 码 的 最 大 好 处 是 如 果 
你 有 GPU，TensorFlow 会 把 计算 目 动 分 发 到 GPU 上 去 〈 当 然 ， 要 安装 带 
有 GPU 支持 的 TensorFlow 版 本 ， 详 见 第 12 章 ) 





[1 注意 housing.target 是 个 一 维 数组 ， 我 们 需要 将 它 变 成 一 个 列 同 量 来 计 
算 中 eta。Numpy 的 reshape〈) 函数 氨 受 -1 表示 未 指定 ) 作为 参数 : 该 
维度 将 根据 数组 的 长 度 和 剩余 维度 进行 计算 。 


实现 梯度 下 降 


我 们 来 试 一 下 批量 梯度 下 降 法 〈 在 第 4 章 中 有 介绍 ) 。 首 先 手工 计 
算 梯 度 ， 然 后 使 用 TensorFlow 的 上 自动 微分 特性 来 目 动 计算 梯度 ， 最 后 学 
习 TensorFlow 内 置 的 众多 优化 器 。 











入、 当 使 用 袖 度 下 降 法 时， 要 记得 先 对 输入 的 特征 向 量 做 归 一 化 ， 
否则 训练 过 程 会 非常 慢 。 可 以 用 TensorFlow、NumPy、Scikit-Learn 的 
StandardScaler， 或 者 其 他 你 喜欢 的 方法 。 下 面 这 段 代 码 假设 已 经 做 过 了 
9 =H 


手工 计算 梯度 

下 面 的 代码 基本 上 都 是 自 解释 的 了 ， 除 了 这 些 新 的 点 之 外 : 

:函数 random_uniform〈() 会 在 图 中 创建 一 个 节点 ， 这 个 节点 会 生成 
一 个 张 量 。 函 数 会 根据 传 入 的 形状 和 值 域 来 生成 随机 值 来 填充 这 个 张 
量 ， 这 和 NumPy 的 rand〈) 函数 很 相似 。 


-函数 assign 〔) 创建 一 个 为 变量 赋值 的 节点 。 这 里 ， 它 实现 了 批量 
梯度 下 降 stepg ”0-1 VoMSE(6)， 
. 主 循环 部 分 不 断 执行 训练 步 又 〈 共 mn_epochs 次 ) ， 每 经 过 100 次 移 


代 ， 它 会 打印 当前 的 均 方 误差 (Mean Squared Error) 。 这 个 值 应 该 是 不 
斯 降低 的 。 








n_epochs = 1000 
Jearning_rate = 0.01 


X = tf.constant(scaled housing_ data plus_ bias, dtype=tf.float32, name="X") 
y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y") 
theta = tf.Variable(tf,.random uniform([n + 1, 1], -1.0, 1.0), name="theta") 
y_pred = tf.matmul(X, theta, name="predictions") 

error = y_ pred - y 

mse = tf,.reduce mean(tf.square(error), name="mse") 

gradients = 2/m * tf.matmul(tf.transpose(X), error) 

training op = tf.assign(theta, theta - learning rate * gradients) 


init = tf.global variables initializer() 


with tf.Session() as sess: 


sess.run(init) 


for epoch in range(n_epochs): 
if epoch % 100 == 0: 
print("Epoch", epoch, "MSE =", mse.eval()) 
sess,run(training op) 


best_theta = theta.eval() 





使 用 目 动 微分 


上 面 的 代码 可 以 很 好 地 工作 ， 但 是 需要 用 数学 的 方式 来 从 成 本 函数 
CMSE) 中 算出 梯度 。 对 于 线性 回归 来 说 ， 这 是 很 简单 的 ， 但 是 如 果 你 
要 处 理 深度 神经 网 络 就 很 头疼 了 : 过 程 会 珊 碎 而 且 容易 出 错 。 可 以 用 符 
号 微分 法 来 自动 求 出 俩 导 方 程 ， 不 过 代码 就 不 一 定 那么 高 效 了 。 


为 了 理解 其 中 的 原因 ， 想 象 函数 f(x) 
=exp (exp (exp (XxX) ) ) 。 如 果 你 懂 微 积分 ， 你 会 计算 出 它 的 导数 是 
f (x) =exp (x) xexp (exp (x) ) xexp (exp (exp (x) ) ) 。 如 果 在 
代码 中 也 这 样 做 ， 那 肯定 是 低 效 的 。 更 高 效 的 方式 是 写 一 个 函 数 先 计算 
exp (X) ， 然 后 再 计算 exp (exp (x) ) ， 最 后 计算 
exp (exp (exp (XxX) ) ) ， 之 后 返回 三 个 值 。 这 样 可 以 直接 计算 出 
(RY 3 如 果 要 计算 导数 ， 只 需要 将 这 三 个 值 相 乘 。 如 果 用 原生 的 方 
法 ， 需要 调用 exp 函 数 9 次 来 计算 f (x) 和 f (x) 。 后 面 这 种 方式 只 需要 
Bs 




















如 琳 函 数 由 更 复杂 的 代码 定义 ， 和 情况 会 变更 糟 。 你 能 求 出 下 面 这 个 
函数 的 偏 导 方程 吗 ? 提示 : 干 万 别 试 ! 





def my_func(a, b): 
z=0 
for i in range(100): 
z=a* np.cos(z + i) +zZ* np.sin(b - i) 
return z 





幸运 的 是 ， Te E 可 以 帮 你 解决 ， 它 可 以 上 自动 而 
旦 高 效 地 算出 梯度 。 只 需要 把 上 述 例 子 中 的 对 gradients 的 赋值 的 语句 换 
成 下 面 的 代码 即 可 : 





gradients = tf.gradients(mse, [thetal])[0] 





gradients〈) 函数 接受 一 个 操作 符 〈 这 里 是 mse) 和 一 个 参数 列表 
(这 里 是 theta〉 作 为 参数 ， 然 后 它 会 创建 一 个 操作 符 的 列表 来 计算 每 个 
变量 的 梯度 。 所 以 梯度 市 点 将 计算 MSE 相 对 于 theta 的 梯度 同 量 。 


四 种 自动 计算 梯度 的 主要 方法 见 表 9-2。TensorFlow 使 用 了 反问 的 
autodiff 算 法 ， 它 非常 适用 于 有 多 个 输入 和 少量 输出 的 场景 (高 效 而 精 
确 ) ， 在 神经 网 络 中 这 种 场景 非常 第 见 。 它 只 需要 nouputs+1 次 通 历 ， 束 
可 以 求 出 所 有 输出 相对 于 输入 的 偏 导 。 


表 9-2: 自动 计算 梯度 的 主要 方法 





计算 所 有 梯度 
所 需 明 历次 数 
数值 微分 低 是 实现 琐碎 
符号 微 人 育 大 会 构建 一 个 完全 不 同 的 
前 向 自动 微分 高 是 基于 二 元 村 
反问 自动 微分 高 是 由 TensorFlow 实现 


如 果 你 对 其 背后 原理 感 兴趣 ， 请 参见 附录 D。 
使 用 优化 颖 
TensorFlow 会 帮 你 计算 梯度 ， 不 过 它 还 提供 更 容易 的 方法 : 它 内 置 


了 很 多 的 优化 器 ， 其 中 就 包括 梯度 下 降 优化 器 。 你 只 需要 把 上 面 对 
gradients=.… 和 training_op=.… 赋 值 的 语句 修改 成 下 面 的 代码 即 可 : 








optimizer = tf.train,.GradientDescentOptimizer(learning_rate=learning_rate) 
training_op = optimizer ,minimize(mse) 








如 果 你 想 使 用 其 他 类 型 的 优化 器 ， 只 需要 修改 一 行 代码 。 例 如 ， 如 
果 要 使 用 动量 优化 器 (momentum optimizer) 〈 比 梯度 下 降 优 化 器 的 收 
敛 速度 快 很 多 ， 见 第 11 章 ) ， 可 以 这 样 定义 优化 器 : 





optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate, 
momentum=0.9) 


et¥ 


给 训练 算法 提供 数据 


下 面 把 上 面 的 代码 改 成 小 批 次 梯度 下 降 (Mini-batch Gradient 
Descent) 。 为 此 ， 需 要 一 种 在 每 次 迭代 时 用 下 一 个 小 批量 蔡 换 X 和 y 的 
方法 。 最 简单 的 方法 是 用 占 位 符 节 点 。 占 位 符 节 点 非常 特别 ， 它 们 不 进 
行 任何 实际 的 计算 ， 而 只 是 在 运行 时 输出 你 需要 它 输 出 的 值 。 一 般 它 用 
来 在 训练 过 程 中 将 值 传 给 TensorFlow。 如 果 运 行 时 不 为 占 位 符 指 定 一 个 
值 ， 就 会 得 到 一 个 异常 。 


要 创建 一 个 占 位 符 节 点 ， 需 要 调用 placeholder () 函数 并 指定 输出 
张 量 的 数据 类 型 。 另 外 ， 如 果 你 想 强 制 张 量 的 形状 ， 也 可 以 在 此 指 宪 。 
如 果 给 维度 设置 None 值 ， 则 表示 “任意 尺寸 ?>。 比 如 ， 下 面 的 代码 创建 了 
一 个 占 位 符 节 点 A， 同 时 创建 节点 B， 节 点 B=A+5。 当 对 B 求 值 时 ， 给 
eval() 方法 传 一 个 feed_dict， 并 指定 A 的 值 。 注 意 ，A 必 须 是 2 阶 的 
(比如 ， 一 个 三 维 数组 ) 而 且 必 须 有 3 列 〈 人 否则 会 抛 异 常 ) ， 不 过 可 以 
有 任意 多 行 。 














>>> A = tf.pJaceholder(tf,float32，Sshape=(None，3)) 
>>> B=A+5 
>>> with tf.Session() as sess: 
a B_val 1 = B.eval(feed dict={A: [[1, 2, 3]]} 
B_val 2 = B.eval(feed dict={A: [[4, 5, 6], [7, 8, 9]]}) 


>>> print(B_val_1) 
[[ 6. 7. 8.]] 
>>> print(B_val 2) 
[[ 9. 10. 11.] 
[ 12. 13. 14.]] 





Mpir. 可 以 输入 任何 操作 的 输出 ， 而 不 仅仅 是 占 位 符 。 这 时 
TensorFlow 不 会 求 值 这 些 操 作 ， 筷 会 用 你 传 给 它 的 值 。 


要 实现 小 批 次 梯度 下 降 ， 只 需要 对 既 有 代码 做 一 点 微小 的 调整 。 首 
先 在 构造 阶段 把 X 和 y 定 义 为 占 位 符 节点 。 








xX = tf.placeholder(tf.float32, shape=(None, n + 1), name="X") 
y = tf.placeholder(tf.float32, shape=(None, 1), name="y") 





然后 定义 批 次 的 大 小 并 计算 批 次 的 总 数 : 





batch_size = 100 
n_batches = int(np.ceil(m / batch_size)) 





最 后 ， 在 执行 阶段 ， 逐 个 获取 小 批 次 ， 然 后 在 评估 依赖 于 它们 的 节 
点 时 ， 通 过 feed “ict 参 数 提供 txX 和 y 的 值 。 





def fetch_batch(epoch, batch_ index, batch_ size): 
[...] # load the data from disk 
return Xx_batch, y_batch 


with tf,.Session() as sess: 
sess.run(init) 


for epoch in range(n_epochs): 
for batch_index in range(n_batches): 
X_batch，y_batch = fetch batch(epoch, batch_index, batch_size) 
sess.run(training_op, feed dict={X: XxX _ batch, y: y_batch}) 
best_theta = theta.eval() 





外 不过 在 求 信 theta 时 无 须 给 X 和 vy 传 们 ， 因为 theta 不 依赖 于 它们 中 
的 (于 六 一 


保存 和 恢复 模型 


一 旦 训练 好 了 模型 ， 就 需要 将 模型 的 参数 保存 到 人 硬盘 上 ， 这 样 可 以 
在 任何 时 刻 使 用 这 些 参数 ， 可 以 在 其 他 程序 中 使 用 ， 与 其 他 模型 做 比 
较 ， 等 等 。 男 外 ， 你 可 能 希望 在 训练 过 程 中 定期 将 检查 点 
(checkpoint) 保存 起 来 ， 这 样 当 电 脑 崩 尝 时 ， 可 以 从 最 近 一 个 检查 点 
恢复 ， 而 不 是 从 头 再 来 。 


在 TensorFlow 中 ， 存 取 模 型 都 非常 容易 。 在 构造 期 末尾 〈 在 所 有 变 
量 节 点 都 创建 之 后 ) 创建 一 个 Saver 节 点 ， 然 后 在 执行 期 ， 调 用 save () 
方法 ， 并 传 入 一 个 会 话 和 检查 点 文件 的 路 径 即 可 保存 模型 : 














[...] 
theta = tf.Variable(tf,.random uniform([n + 1, 1], -1.0, 1.0), name="theta") 


[...] 
init = tf.global variables initializer() 
saver = tf.train.Saver() 


with tf.Session() as sess: 
sess.run(init) 


for epoch in range(n_epochs): 
If epoch % 100 == 0: # checkpoint every 100 epochs 
Save_path = saver.save(sess, "/tmp/my_model.ckpt") 
sess.run(training_op) 


best_theta = theta.eval() 
Save_path = saver.save(sess, "/tmp/my_model final.ckpt") 








恢复 模型 同样 简单 :与 之 前 一 样 ， 在 构造 期 末尾 创建 一 个 Saver 市 
点 ， 不 过 在 执行 期 开始 的 时 候 ， 不 是 用 init 市 点 来 初始 化 变量 ， 而 是 调 
用 Saver 对 象 上 的 restore() 方法 : 





with tf.Session() as sess: 
saver .restore(sess, "/tmp/my_model final.ckpt") 


[...] 








默认 地 ，Saver 会 按照 变量 名 来 保存 和 恢复 变量 ， 不 过 如 果 你 想 做 
更 多 的 控制 ， 也 可 以 在 保存 和 恢复 时 自己 指定 名 称 。 比 如 ， 在 下 面 的 代 
人 码 中 ，Saver 只 会 保存 theta， 并 将 其 命名 为 weights: 











saver = tf,train,Saver({ "weights": theta}) 


i 


用 TensorBoard 来 可 视 化 图 和 训练 曲线 


现在 有 一 个 可 以 用 小 批量 梯度 下 降 法 训练 线性 回归 模型 的 计算 图 
了 ， 而 且 可 以 周期 性 地 将 检查 点 保存 起 来 。 听 起 来 很 不 错 ， 不 是 吗 ? 不 
过 ， 我 们 现在 还 是 依赖 print 〈) 函数 来 可 视 化 训练 的 进度 。 有 一 个 更 好 
的 方法 : 使 用 TensorBoard。 给 它 一 些 训 练 状态 ， 它 可 以 在 浏览 器 中 将 
这 些 状 态 以 交互 的 方式 展现 出 来 〈 比 如 学 习 曲 线 ) 。 还 可 以 将 图 的 定义 
提供 给 它 ， 然 后 通过 浏览 器 来 进行 查看 。 这 种 方式 对 识别 图 中 的 错误 ， 
发 现 图 的 瓶颈 等 非常 有 用 。 


首先 要 对 程序 稍 做 修改 ， 这 样 它 可 以 将 图 的 定义 和 训练 状态 ， 比 
如 ， 训 练 误差 (MSE)〉， 写 入 到 一 个 TensorBoard 会 读 取 的 日 志文 件 夹 
中 。 每 次 运行 程序 时 ， 都 需要 指定 一 个 不 同 的 目录 ， 人 否则 TensorBoard 
会 将 这 些 状态 信息 合并 起 来 ， 这 会 导致 可 视 化 结果 变 成 一 团 糟 。 最 简单 
的 方式 是 用 时 间 惟 来 命名 日 志文 件 夹 。 把 下 面 这 些 代 码 放 在 程序 的 开始 


部 分 : 


























from datetime import datetime 


now = datetime.utcnow().strftime("%Y%m%d%H%M%S" ) 
root_logdir = "tf_logs" 
logdir = "{}/run-{}/".format(root_ logdir, now) 





接着 ， 把 下 面 的 代码 放 在 构造 期 的 最 后 一 行 : 





mse_summary = tf.summary.scalar('MSE', mse) 
file writer = tf.summary.Filewriter(logdir, tf.get default_graph()) 








第 一 行 在 图 中 创建 了 一 个 节点 ， 这 个 节点 用 来 求 MSE 的 值 ， 并 将 其 
写 入 与 TensorBoard 称 为 汇总 (summary〉 的 二 进 制 日 志 字 符 串 中 。 第 二 
行 创建 了 一 个 用 来 将 汇总 写 入 到 日 志 目 录 的 FileWriter。 第 一 个 参数 指定 
了 日 志 目 录 的 路 径 〈 在 这 里 如 tt Jogs/run-20160906091959， 相 对 于 当前 
目录 ) 。 第 二 个 参数 〈 可 选 ) 指定 了 你 想 要 可 视 化 的 计算 图 。 创 建 之 
后 ， 如 果 目 录 不 存在 ，FileWriter 会 创建 日 志 目 录 《〈 如 果 父 目录 不 存在 ， 
自动 创建 ) ， 并 将 图 的 定义 号 入 一 个 叫 作 事件 文件 的 二 进 制 日 志文 





接 下 来 ， 在 执行 期 中 ， 你 需要 在 训练 时 定期 地 求 值 mse 0 
点 《比如 ， 每 10 个 小 批量 ) 。 这 会 将 汇总 信息 输出 ， 然 后 通 
file_writer 来 将 其 写 入 事件 文件 中 代码 如 下 











we] 
for batch_index in range(n_batches): 
X_batch，y_batch = fetch_ batch(epoch, batch_ index, batch_ size) 
if batch_ index % 10 == 0: 
summary_str = mse_summary.eval(feed dict={X: Xx _ batch, y: y_batch}) 
step = epoch * n_batches + batch_index 
file writer.add_ summary(summary_str, step) 
sess.run(training_op, feed dict={X: X_batch, y: y_batch}) 
[...] 








A 避免 在 每 一 步 部 记录 状态 信息 ， 因 为 这 会 严重 拖 慢 训 练 速 


最 后 ， 需 要 在 程序 结束 时 关闭 FileWriter: 





file writer.close() 





现在 执行 这 个 程序 : 它 会 创建 一 个 日 志 目 录 ， 并 在 该 目录 中 创建 一 
个 事件 文件 ， 事 件 文件 中 包含 了 图 的 定义 和 MSE 的 值 。 打 开 命 令 行 ， 切 
换 到 工作 目录 ， 然 后 输入 1s-l tf_logs/run* 来 列 出 该 目录 中 的 所 有 文件 : 








$ cd $ML_PATH # Your ML working directory (e.g., $HOME/m]l) 

$ ls -1 tf_logs/run* 

total 40 

-rw-r--r-- 1 ageron staff 18620 Sep 6 11:10 events.out.tfevents.1472553182.mymac 





i 


第 二 次 运行 该 程序 时 ， 你 会 在 tf_logs/ 中 看 到 第 二 个 目录 : 











$ 1s -1 tf_logs/ 

total 0 

drwxr-xr-x 3 ageron staff 102 Sep 6 10:07 run-20160906091959 
drwxr-xr-x 3 ageron staff 102 Sep 6 10:22 run-20160906092202 








很 好 ! 0 2 如 果 创 建 了 
virtualenv， 需 要 先 激 活 它 ， 然 后 用 tensorboard 命 令 来 局 动 服务 器 ， 使 它 
指 回 日 志 的 根 目录 。 这 会 让 动 TensorBoard 的 Web 服 务 器 ， 并 在 端口 6006 





上 监听 〈6006 正 是 “goog” 倒 过 来 ) : 





$ source env/bin/activate 

$ tensorboard --logdir tf_logs/ 

Starting TensorBoard on port 6006 

(You can navigate to http://0.0.0.0:6006) 





在 浏览 器 中 输入 http://0.0.0.0:6006/ (或 者 http://localhost:6006/) ， 
束 可 以 看 到 TensorBoard 的 界面 了 ! 在 事件 页 签 ， 你 应 该 可 以 看 到 右 侧 
的 MSE， 如 图 9-3 所 示 。 点 击 它 可 以 看 到 两 次 训练 过 程 中 MSE 的 图 表 。 
可 以 选择 展示 哪 一 次 的 图 表 ， 可 以 放大 或 者 缩小 ， 鼠 标 移 上 去 查看 详 


二 A 稚 刁 
i 
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图 9-3: 用 TensorBoard 可 视 化 训练 状态 


反击 Graphs 页 签 ， 你 应 该 可 以 看 到 图 9-4 中 展示 的 图 表 。 


为 了 减轻 页 面 上 的 杂乱 感 ， 有 多 条 边 的 市 反 单 独 放 在 右 侧 的 辅助 区 
域 〈 可 以 通过 右键 单 击 来 切换 节点 在 主 图 和 辅助 区 域 的 展示 ) 。 图 的 一 
些 部 分 默认 地 会 折 有 登 起 来 。 比 如 ， 把 鼠标 指针 挪 至 梯度 节点 ， 然 后 点 击 
:= 图 标 就 可 以 展开 它 的 子 图 。 接 者 在 子 图 中 ， 再 试 试 展开 mse_grad 了 了 





-< 果 你 想 在 Jupyter 中 直接 看 一 眼 图 的 结构 ， 可 以 用 本 章 的 笔记 
本 中 的 函数 show_graph () 。 这 个 函数 最 早 由 A.Mordvintsev 在 他 的 
deepdream 笔 记 本 (http://goo.g/EtCWUc) 中 开发 。 还 可 以 安装 E.Jang’s 
的 包含 了 Jypyter 扩 展 的 TensorFlow 调 试 工具 

(https://github.comy/ericjang/tdb〉 来 对 图 做 可 视 化 (当然 ， 还 有 很 多 其 
他 功能 
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图 9-4: 用 TensorBoard 可 视 化 计算 图 


命名 作用 域 


在 处 理 诸如 神经 网 络 等 复杂 模型 时 ， 图 很 容易 就 变 得 杂乱 而 庞大 。 
为 了 避免 这 种 情况 ， 可 以 创建 命名 作用 域 来 将 相关 的 节点 分 组 。 比 如 ， 
可 以 修改 上 面 的 例子 ， 将 error( 误 差 ) 和 mse ops 《MSE 操作 〉 定义 到 
一 个 叫 作 "loss” 的 命名 作用 域 中 : 





with tf.name_scope("loss") as scope: 
error = y_ pred - y 
mse = tf.reduce mean(tf.square(error), name="mse") 





在 这 个 作用 域 中 定义 的 每 个 操作 现在 都 有 一 个 “loss/* 前 级 : 





>>> print(error.op.name) 
loss/sub 

>>> print(mse.op.name) 
loss/mse 





在 TensorBoard 中 ，mse 和 error 节 点 现在 都 显示 在 "loss” 命 名 空间 
中 ， 并 且 该 命名 空间 默认 是 收 起 来 的 〈 见 图 9-5) 。 








图 9-5: 一 个 收 起 来 的 命名 作用 域 


模块 化 

假设 你 想 要 创建 一 个 计算 两 个 修正 线性 单元 (ReLU) 之 和 的 图 。 
修正 线性 单元 会 计算 输入 的 线性 函数 ， 如 果 值 是 正 数 ， 则 输出 其 值 ， 如 
果 是 负数 ， 则 返回 0， 如 公式 9-1 所 示 。 


公式 9-1: 修正 线性 单元 
hws(X)=max(X .: w+pb,0) 
下 面 的 代码 可 以 完成 这 个 工作 ， 不 过 有 点 宛 余 : 





n_features = 3 
xX = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 


wi = tf.Variable(tf.random normal((n_features, 1)), name="weights1") 
w2 = tf.Variable(tf.random normal((n_features, 1)), name="weights2") 
b1 = tf.Variable(0.0, name="bias1") 

b2 = tf.Variable(0.0, name="bias2") 

zi1 = tf.add(tf.matmul(X, wi), bi, name="z1") 

z2 = tf.add(tf.matmul(X, w2), b2, name="z2") 

relu1i = tf.maximum(z1i, 0., name="relu1") 

relu2 = tf.maximum(z1, 0., name="relu2") 


output = tf.add(relui, relu2, name="output") 





这 种 重复 代码 很 难 维护 ， 也 容易 出 错 (事实 上 ， 这 段 代 人 码 包 含 了 一 
个 cut-and-paste 的 错误 ， 你 能 看 出 来 吗 ? ) 。 当 要 添加 多 个 ReLU 时 ， 情 
况 会 变 得 更 糟 。 幸 运 的 是 ，TensorFlow 会 让 你 保持 DRY (Don't Repeat 
Yourself， 不 要 重复 自己 ) 原则 : 用 一 个 函数 来 构建 ReLU。 下 面 的 代码 
创建 了 5 个 ReLU， 并 且 输 出 了 它们 的 和 “注意 ，add_n() 创建 了 一 个 
会 计算 一 个 张 量 列表 的 和 的 操作 ) : 








def relu(X): 
w_shape = (int(X,get_shape()[1])，1) 
w = tf.Variable(tf.random normal(w_shape), name="weights") 
b tf.Variable(0.0, name="bias") 
z tf.add(tf.matmul(X, w), b, name="z") 
return tf.maximum(z, 0., name="relu") 


n_features = 3 


X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 
relus = [relu(X) for i in range(5)] 
output = tf.add _n(relus, name="output") 











当 创 建 一 个 节点 时 ，TensorFlow 会 检查 这 个 名 字 是 否 已 经 存在 ， 如 
果 已 经 存在 了 ， 它 会 为 其 添加 一 个 下 划 线 和 一 个 索引 以 保证 唯一 性 。 第 
一 个 ReLU 包 含 了 名 字 为 "weights""bias"z" 和 "relu" (以 及 一 些 有 自己 黑 
认 名 字 的 节点 ， 比 如 "MatMul") 的 节点 ; 第 二 个 ReLU 包 含 的 节点 即 
为 ， "weights_1bias_1" 等 ;第 三 个 ReLU 会 包含 "weights_2"bias_2" 等 节 
点 ，TensorBoard 会 发 现 这 种 规律 ， 并 将 其 归 类 到 一 组 以 避免 界面 的 混 
乱 《 见 图 9-6〉。 
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图 9-6: 收 起 的 闻 反 序列 


使 用 命名 作用 域 ， 可 以 让 图 更 加 清晰 。 只 需要 将 relu () 函数 的 内 
容 放 进 一 个 命名 作用 域 即 可 。 图 9-7 展 示 了 结果 图 。 注 意 ，TensorFlow 还 
通过 加 _1、_2 等 后 缀 的 方式 为 命名 作用 域 提 供 了 唯一 的 名 字 。 








def relu(X): 
with tf.name_scope("relu"): 
| 





output 


! 1 


? 
图 9-7: 带 有 命名 作用 域 的 更 加 清晰 的 图 








共享 变量 


如 果 你 想 在 图 的 不 同 组 件 中 共享 变量 ， 最 简单 的 做 法 是 先 创建 ， 然 
后 将 其 作为 参数 传递 给 需要 它 的 函数 。 比 如 你 想 通 过 一 个 共享 的 阔 值 变 
量 来 控制 所 有 ReLU 的 阔 值 (当前 是 人 硬 编码 为 0 的 ) 。 可 以 先 创建 这 个 变 
量 ， 然 后 传 给 relu () 函数 : 














def relu(X, threshold): 
with tf.name_scope("relu"): 


return tf.maximum(z, threshold, name="max") 


threshold = tf.Variable(0.0, name="threshold") 

X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 
relus = [relu(X, threshold) for i in range(5)] 

output = tf.add_n(relus, name="output") 











这 是 可 行 的 :你 已 经 可 以 通过 threshold 变 量 来 控制 所 有 ReLU 的 阐 值 
了 。 不 过 ， 如 果 有 太 多 类 似 的 共享 参数 ， 那 么 一 直 将 其 作为 参数 来 到 处 
传递 就 会 变 得 很 猜 百 。 有 些 人 创建 了 一 个 包含 模型 所 需要 的 所 有 变量 的 
字典 ， 然 后 传递 给 每 一 个 函数 。 也 有 人 为 每 个 模块 都 创建 一 个 类 《〈 例 
如 ， 一 个 ReLU 类 用 类 变量 来 持 有 共有 诗 参数 ) 。 别 一 个 选项 是 在 第 一 次 
调用 时 将 共享 变量 设置 为 relu () 函数 的 一 个 属性 : 














def relu(X): 
with tf.name_scope("relu"): 
if not hasattr(relu, "threshold"): 
relu.threshold = tf.Variable(0.0, name="threshold") 


[...] 
return tf.maximum(z, relu.threshold, name="max") 





TensorFlow 提 供 另外 一 个 选择 ， 可 以 让 代码 更 加 清晰 ， 也 更 加 模块 
化 。 出 这 种 方式 一 开始 理解 起 来 会 有 点 困难 ， 不 过 它 会 在 TensorFlow 中 
频繁 使 用 ， 还 是 值得 详细 讨论 的 。 如 果 共 享 变 量 不 存在 ， 该 方法 先 通过 
get_variable〈) 函数 创建 共享 变量 ， 如 果 已 经 存在 了 ， 吏 复 用 该 共享 变 
量 。 期 望 的 行为 通过 当前 variable_scope 〈) 的 一 个 属性 来 控制 (创建 或 
者 复 用 ) 。 比 如 ， 下 面 的 代码 会 创建 一 个 名 为 "relwthreshold" 的 变量 
《因为 shape= () ， 所 以 结果 是 一 个 标量 ， 并 且 以 0.0 为 初始 值 ) : 








with tf.variable_scope("relu"): 


threshold = tf.get variable("threshold", shape=(), 
initializer=tf.constant_initializer(0.0)) 





注意 ， 如 果 这 个 变量 之 前 已 经 被 get_variable () 调用 创建 过 ， 这 里 
会 抛 出 一 个 异 第 。 这 种 机 制 避 免 由 于 误 操 作 而 复 用 变量 。 如 果 要 复 用 一 
个 变量 ， 需 要 通过 设置 变量 作用 域 的 reuse 属 性 为 True 来 显 式 地 实现 〈 在 
这 里 ， 不 必 指 定形 状 或 初始 化 器 〉。 














with tf.variable_ scope("relu", reuse=True): 
threshold = tf.get variable("threshold") 





这 段 代 码 会 获取 既 有 的 "relu/threshold" 变 量 ， 如 果 该 变量 不 存在 ， 
或 者 在 调用 get_variable () 时 没有 创建 成 功 ， 那 么 会 抛 出 一 个 异常 。 男 
一 种 方式 是 ， 在 调用 作用 域 的 reuse_variables () 方法 块 中 设置 reuse 属 
性 为 True: 





with tf.variable_ scope("relu") as scope: 
scope.reuse_variables() 
threshold = tf.get variable("threshold") 








稚 、_ 日 iouse 属 性 设置 为 True 之 后 ， 在 该 块 中 就 不 能 再 设置 为 False 
了 。 男 外 ， 如 果 在 块 中 定义 了 另外 的 变量 作用 域 ， 它 们 会 自动 继承 
resue=True。 最 后 ， 只 有 通过 get_variable () 创建 的 变量 才 可 以 用 这 种 
方式 来 进行 复 用 。 


现在 你 已 经 看 到 了 所 有 能 让 relu () 函数 无 须 通 过 传 入 参数 就 访问 
threshold 变 量 的 方法 了 : 





def relu(X): 
with tf,vVariable_scope("relu"，reuse=True) : 
threshold = tf.get_variable("threshold") # reuse existing variable 


[...] 
return tf.maximum(z, threshold, name="max") 


X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 
with tf.variable_ scope("relu"): # create the variable 
threshold = tf.get variable("threshold", shape=(), 
initializer=tf.constant_initializer(0.0)) 
relus = [relu(X) for relu_index in range(5)] 
output = tf.add_n(relus, name="output") 


二 一 


这 上 段 代码 首先 定义 了 relu() 函数 ， 然 后 创建 了 relwthreshold 变 量 
(作为 一 个 标量 ， 会 被 初始 化 为 0.0) 并 通过 调用 relu () 函数 构建 了 5 
个 ReLU。Relu〈) 函数 复 用 了 relu/threshold 变 量 ， 并 创建 其 他 的 ReLU 
se 


Mae variahle () 创建 的 变量 总 是 以 它们 的 variable_scope 作 
为 前 绥 来 命名 的 《比如 '"reluthreshold") ， 对 于 其 他 节点 (包括 通过 
tf.Variable〈) 创建 的 变量 ) 变量 作用 域 的 行为 束 好 像 是 一 个 新 的 作用 
域 。 具 体 来 说 ， 如 果 一 个 命名 作用 域 有 一 个 已 经 创建 了 的 变量 名 ， 那 么 
就 会 加 上 一 个 后 缀 以 保证 其 唯一 性 。 比 如 ， 上 面 例子 中 的 所 有 变量 ( 除 
了 threshold 变 量 ) 都 有 一 个 “relu_1” 到 “relu 5” 的 前 级 ， 见 图 9-8。 





output 


relu A relu relu relu relu 


eh lul 中 
relu 

X eo—— /a 2 

| threshold ro relu 3 

Ne 


Nrelu 5 








图 9-8: 5 个 共享 闽 值 变量 的 ReLU 


遗憾 的 是 ，threshold 变 量 必须 定义 在 relu 〈) 函数 之 外 ， 其 他 所 有 
的 ReLU 代 码 都 在 内 部 。 要 解决 这 个 问题 ， 下 面 的 代码 在 relu〈() 函数 第 
一 次 调用 时 创建 了 threshold 变 量 ， 并 在 后 续 的 调用 中 复 用 。 现 在 
relu () 函数 无 须 关 注 命 名 作用 域 或 者 变量 共享 问题 ， 它 只 需要 调用 
get_variable〈) ， 来 创建 或 者 复 用 threshold 变 量 〈 无 须 关 心 到 底 是 创建 
还 是 复 用 ) 。 剩 下 的 代码 调用 了 relu () 5 次 ， 确 保 第 一 次 调用 时 将 reuse 
设置 为 False， 后 续 的 调用 将 reuse 设 置 为 True。 











def relu(X): 
threshold = tf.get variable("threshold", shape=(), 
initializer=tf.constant_initializer(0.0)) 


[...] 
return tf.maximum(z, threshold, name="max") 


xX = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 
relus = [] 
for relu_index in range(5): 
with tf.variable_ scope("relu", reuse=(reluyu index >= 1)) as scope: 
relus.append(relu(X)) 
output = tf.add _n(relus, name="output") 





结果 图 跟 之 前 的 略 有 不 同 ， 因 为 共 译 变量 在 第 一 个 ReLU 中 〈 见 图 
9-9) 。 
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图 9-9: 5 个 共享 threshold 变 量 的 ReLU 


TensorFlow 的 介绍 就 到 此 为 止 了 。 我 们 将 在 后 续 的 章节 中 讨论 更 多 
的 高 级 主题 ， 特 别 是 与 深度 神经 网 络 、 卷 积 神经 网 络 、 复 发 神经 网 络 相 
关 的 操作 ， 以 及 如 何 通过 多 线程 、 队 列 、 多 GPU、 多 服务 器 等 对 
TensorFlow 进 行 扩 容 。 


[ 册 理论 上 来 说 ， 创 建 一 个 ReLU 类 是 最 清晰 的 做 法 ， 不 过 非常 重量 级 。 








练习 
1. 相 比 直 接 执 行 计算 ,创建 计算 图 的 最 大 优点 是 什么 ?最 大 的 缺点 


呢 ? 
2. 语 句 a_val=a.eval (session=sess) 和 a _val=sess.run (a) 等 价 吗 ? 


3. 语 句 a_val,b val=a.eval (session=sess) ，b.eval (ses sion=sess) 
和 和 a_val，b_val=sess.run ([a，b]) 等 价 吗 ? 


4. 你 可 以 在 同一 个 会 话 中 运行 两 个 图 吗 ? 

5. 假 设 你 创建 了 一 个 包含 变量 w 的 图 ， 然 后 在 两 个 线程 中 分 别 启 动 
一 个 会 话 ， 两 个 线程 都 使 用 了 图 g， 每 个 会 话 会 有 目 己 对 w 变 量 的 找 
贝 ， 还 是 会 共 孚 变量 ? 

6. 变 量 何 时 被 初始 化 ， 又 在 何 时 被 销毁 ” 

7. 占 位 符 和 变量 的 区 别 是 什么 ? 


8. 如 果 对 一 个 依赖 于 占 位 符 的 操作 求 值 ， 但 是 又 没有 为 其 传 值 ， 会 
发 生 什 么 ?如 果 这 个 操作 不 依赖 于 占 位 符 呢 ? 


9. 运 行 一 个 图 时 ， 可 以 为 任意 操作 输出 值 ， 还 是 只 能 输出 占 位 符 的 
? 


10. 在 执行 期 ， 你 如 何 为 一 个 变量 设置 任意 的 值 ? 


11. 反 内 模式 autodiff 需 要 多 少 次 明 历 图 形 才能 计算 10 个 变量 的 成 本 
函数 的 梯度 ? 正 向 模式 autodiff 怎 么 样 ? 符号 微分 呢 ? 


12. 用 小 批量 梯度 下 降 法 来 实现 逻辑 回归 。 用 月 腕 数据 集 来 训练 和 
评估 〈 数 据 见 第 5 章 ) 。 尝 试 下 面 这 些 任务 : 


在 函数 logistic_regression 〈) 中 定义 可 以 被 复 用 的 图 。 


在 训练 过 程 中 ， 定 期 地 通过 Saver 将 检查 点 保存 起 来 ， 并 将 最 后 的 
模型 保存 起 来 。 























状 。 





如果 训 练 被 终止 了 ， 人 恢复 之 前 保存 的 模型 。 
:用 合理 的 作用 域 来 定义 图 ， 使 得 其 在 TensorBoard 上 看 起 来 比较 漂 


.添加 汇总 信息 以 在 TensorBoard 中 可 视 化 学 习 曲 线 。 
.调整 诸如 学 习 速 率 和 批 次 大 小 等 超 参数 ， 并 查看 学 习 曲 线 的 形 


练习 的 参考 答案 详 见 附录 A。 


第 10 章 ”人工 神经 网 络 简 介 


我 们 从 乌 类 那里 得 到 局 有 发， 学 会 了 飞翔 ， 从 牛 劳 那 里 得 到 局 及， 发 
明了 魔术 贴 ， 还 有 很 多 其 他 的 发 明 部 是 被 目 然 所 局 发 。 这 么 说 来 看 看 大 
脑 的 组 成 ， 并 期 望 因此 而 得 到 局 发 来 构建 智能 机 器 就 显得 很 合乎 轴 辑 
了 。 这 也 是 人 工 神经 网 络 (ANN) 思想 的 根本 来 源 。 不 过 ， 虽 然 飞 机 的 
发 明 受 乌 类 的 启发， 但 是 它 并 不 用 烛 动 翅膀 来 飞翔 。 同 样 ， 人 工 神 经 网 
络 和 它 的 生物 版 本 也 有 很 大 差异 。 甚 至 有 些 研究 者 认为 应 该 放弃 对 生物 
类 比 的 使 用 比如， 称 其 为 “单元 ”而 不 是 “神经 元 ”) ， 以 免 我 们 将 创造 
力 限 制 在 生物 学 出 上 。 


人 工 神 经 网 络 是 深度 学 习 的 核心 中 的 核心 。 它 们 通用 、 强 大 、 可 扩 
展 ， 使 得 它 成 为 解决 大 型 和 高 度 复杂 的 机 器 学 习 任 务 的 理想 选择 。 比 如 
将 数 以 亿 计 的 图 片 分 类 (如 Google ”Images) ， 支 撑 语 音 识别 服务 〈 如 
Apple 的 Siri〉， 为 数 以 干 万 计 的 用 户 每 天 推荐 最 佳 视频 (如 
YouTube) ， 通 过 研究 之 前 的 数 百 万 次 的 比赛 并 不 断 地 和 目 己 比赛 ， 在 
棋 比 赛 中 击败 世界 冠军 〈DeepMind 的 AlphaGo) 。 


本 章 将 通过 第 一 个 ANN 架 构 的 快速 教程 来 介绍 人 工 神 经 网 络 。 然 后 
会 展示 多 层 感知 器 (MLP) 并 用 TensorFlow 来 实现 一 个 MLP， 并 用 其 来 
解决 MNIST 数 字 分 类 问题 〈 见 第 3 章 ) 。 


[1 充分 接受 生物 学 上 的 启发， 叉 无 须 担心 生物 学 上 的 不 可 能 性 ， 可 以 
让 我 们 充分 得 到 两 个 世界 的 最 大 价值 。 























从 生物 神经 元 到 人 工 神经 元 


令 人 惊讶 的 是 ，ANN 已 经 存在 了 好 长 时 间 了 : 最 早 在 1943 年 由 神经 
学 家 Warren McCulloch 和 数学 家 Walter Pitts 提 出 。 在 他 们 著名 的 论文 “A 
Logical Calculus of Ideas Immanent in Nervous 
Activity”(https:/goo.gVUl4mxw) 出 中 ，McCulloch 和 Pitts 展 示 了 一 个 简 
化 过 的 计算 模型 来 描述 在 动物 的 大 脑 中 ， 神 经 元 如 何 通过 命题 逻辑 来 实 
现 复杂 的 计算 。 这 是 第 一 个 人 工 神经 网 络 架构 ， 正 如 我 们 将 要 看 到 的 ， 
从 那 之 后 还 有 很 多 其 他 类 型 的 染 构 被 发 明 出 来 。 


直到 20 志 纪 60 年 代 ，ANN 的 早期 成 功 让 人 们 普遍 认为 ， 我 们 很 快 将 
会 与 真正 智能 的 机 器 对 话 。 当 明确 表示 这 一 承诺 (至 少 在 一 段 时 间 内 ) 
将 不 会 实现 时 ， 资 金 就 投向 了 其 他 地 方 ，ANN 进 入 了 漫长 的 黑暗 时 期 。 
在 20 世 纪 80 年 代 初 ， 随 着 新 网 络 架 构 的 发 明和 更 好 的 培训 技术 的 发 展 ， 
人 们 对 ANN 的 兴趣 又 重新 变 得 浓厚 。 不 过 到 了 20 世 纪 90 年 代 ， 更 强大 的 
机 器 学 习 技 术 如 支持 向 量 机 〈 见 第 5 章 ) 成 为 大 部 分 研究 者 的 新 宠 ， 因 
为 它们 似乎 提供 了 更 好 的 结果 和 更 强大 的 理论 基础 。 最 终 ， 我 们 见证 了 
另 一 波 对 ANN 兴 趣 的 高 沽 。 这 次 高 潮 会 像 上 一 次 那样 归于 沉 彼 吗 ? 有 很 
人 
Da): 


:现在 有 了 海量 的 可 用 数据 来 训练 神经 网 络 ， 而 且 在 超大 超 复杂 问 
题 上 ANN 比 其 他 的 ML 技术 性 能 更 佳 。 


目 20 世 纪 90 年 代 以 来 ， 飞 速 增长 的 计算 能 力 使 得 在 合理 时 间 内 训 
练 大 型 神经 网 络 成 为 可 能 。 部 分 原因 是 摩尔 定律 在 生效 ， 不 过 也 要 感谢 
游戏 产业 ， 它 们 制造 了 数 以 百 万 计 的 强大 的 GPU。 


训练 算法 也 得 到 了 很 大 的 提升 。 坦 日 说 与 20 世 纪 90 年 代 相 比 ， 算 
法 只 有 一 点 点 不 同 ， 但 是 这 些小 的 调整 产生 了 巨大 的 正面 影响 。 


ANN 的 一 些 理论 限制 在 实践 中 被 证 明 是 可 以 接受 的 。 比 如 ， 很 多 
人 认为 训练 算法 是 注定 要 失败 的 ， 因 为 算法 在 局 部 优化 时 很 可 能 被 卡 
住 ， 不 过 这 种 情况 在 实践 中 非常 少见 (或 者 即使 出 现 了 ， 它 们 往往 和 全 
局 优化 值 已 经 非常 接近 ) 。 


ANN 似 乎 进入 了 资金 和 技术 进步 的 恨 性 循环 。 基 于 ANN 的 怀 人 产 











品 不 断 地 出 现在 头条 ， 从 而 吸引 更 多 的 关注 和 资金 投入 ， 这 又 会 使 其 产 
生 新 的 进步 ， 然 后 产生 更 多 令 人 惊讶 的 产品 。 


生物 神经 元 


在 讨论 人 工 神 经 元 之 前 ， 我 们 先 来 快速 看 一 下 生物 神经 元 (如 图 
10-1 所 示 ) 。 这 是 一 种 通常 会 出 现在 动物 的 大 脑 皮 层 中 的 非 几 细胞 ( 比 
如 在 你 的 大 脑 中 ) ， 由 包含 细胞 核 和 大 部 分 细胞 复合 成 分 的 细胞 体 组 
成 ， 有 许多 分 村 延 伸 的 部 分 称 为 树 突 ， 一 个 非 第 长 的 延伸 称 为 轴 突 。 轴 
突 的 长 度 可 能 比 细胞 体 长 几 倍 ， 或 者 长 达 几 万 倍 。 在 其 极端 附近 ， 轴 突 
分 裂 成 许多 被 称 为 终 树 突 的 分 文 ， 在 这 些 分 文 的 尖端 是 称 为 突 触 终端 
〈 或 简单 的 突 触 ) 的 微小 结构 ， 它 会 连接 到 其 他 神经 元 的 树 突 《〈 或 直接 
连接 到 细胞 体 ) 。 生 物 神 经 元 通过 这 些 突 触 接 受 从 其 他 细胞 发 来 的 很 短 
的 电 脉冲 ， 这 种 脉冲 被 称 为 信号 。 当 一 个 神经 元 在 一 定 的 时 间 内 收 到 足 
够 多 的 信号 ， 束 会 出 发 它 自己 的 信号 。 














图 10-1: 生物 神经 元 只 
单个 的 生物 神经 元 看 起 来 非常 简单 ， 但 是 别 筷 了 数 以 亿 计 的 神经 元 





组 成 了 一 个 巨大 的 网 络 ， 每 个 神经 元 都 会 与 数 干 个 其 他 的 神经 元 链接 。 
超级 复杂 的 计算 也 可 以 通过 这 些 简 单 的 神经 元 来 完成 ， 就 好 比 非 第 复杂 
的 蚁 丘 可 以 通过 蚂蚁 来 完成 一 样 。 生 物 神 经 网 络 架构 时 仍然 是 一 个 非常 
活跃 的 研究 主题 ， 不 过 大 脑 的 部 分 区 域 已 经 被 映射 好 了 ， 神 经 元 往往 会 
按照 连续 的 层次 来 组 织 ， 如 图 10-2 所 示 。 
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图 10-2: 生物 神经 网 络 的 多 个 层次 (人 类 大 脑 皮 层 〉 约 
具有 神经 元 的 逻辑 计算 


Warren McCulloch 和 Walter Pitts 提 出 了 一 个 生物 神经 元 的 简化 模 
型 ， 这 种 模型 后 来 被 称 为 人 工 神经 元 : 它 有 一 个 或 多 个 二 进 制 ( 开 / 
关 ) 的 输入 和 一 个 二 进 制 输出 。 当 一 定数 量 的 输入 都 是 激活 状态 时 ， 人 
工 神经 元 就 会 激活 其 输出 。McCulloch 和 Pitts 展 示 了 即使 用 如 此 简单 的 
模型 ， 也 可 能 构建 一 个 可 以 计算 任意 复杂 逻辑 的 网 络 出 来 。 举 个 例子 ， 
我 们 来 构建 一 个 执行 多 种 逻辑 计算 的 人 工 神 经 网 络 〈 见 图 10-3) ， 假 设 
当 一 个 神经 元 的 至 少 两 个 输入 是 激活 状态 时 它 自 身 就 会 处 于 激活 状态 。 








连接 





C=ANB C=ANB 








图 10-3: 计算 简单 逻辑 计算 的 人 工 神 经 网 络 


: 左 侧 的 第 一 个 网 络 是 一 个 简单 的 等 同 函 数 : 如 果 神 经 元 A 是 激活 
的 ， 那 么 C 束 是 激活 的 ( 它 从 A 接受 了 两 个 输入 信号 ) ， 如 果 A 是 非 激活 
的 ， 则 C 也 是 非 激活 的 。 


-第 二 个 网 络 计算 逻辑 与 只 有 当 A 和 B 都 处 于 激活 状态 ，C 才 会 激 
活 《〈 单 独 的 一 个 输入 并 不 足以 激活 C) 。 


:第 三 个 网 络 计 算 逻 辑 或 ，A 和 B 中 有 一 个 (或 者 两 者 都 ;处 于 激活 
时 ，C 就 会 被 激活 。 

:最 后 ， 我 们 假设 输入 可 以 抑制 神经 元 的 激活 状态 (正如 生物 神经 
网 络 中 那样 ) ， 那 么 第 四 个 网 络 计算 的 就 是 一 个 比较 复杂 的 逻辑 操作 : 
只 有 在 A 是 激活 而 且 B 是 非 激活 时 ， 神 经 元 C 才 会 处 于 激活 状态 。 如 果 A 
一 直 处 于 激活 ， 那 你 就 得 到 了 逻辑 非 : 当 B 非 激活 时 ，C 激 活 ， 肥 之 亦 


4 


你 可 以 很 容易 地 想象 用 这 些 网 络 如 何 组 合 出 更 复杂 的 逻辑 计算 〈 练 
习 见 章节 末尾 处 ) 。 


感知 器 


感知 器 是 最 简单 的 ANN 架 构 之 一 ， 于 1957 年 由 Frank ”Rosenblatt 发 
明 。 它 基于 一 个 稍微 不 同 的 被 称 为 线性 阔 值 单元 (LTU) 的 人 工 神 经 元 





〈 见 图 10-4) : 输入 和 输出 都 是 数字 《而 不 是 二 进 制 的 开关 状态 ) ， 每 
个 输入 的 连接 都 有 一 个 对 应 的 权重 。LTU 会 加 权 求 和 所 有 的 输入 
(Cz=w1X1+wW5xo+...+WnXn=wI.X) ， 然 后 对 求 值 结果 应 用 一 个 阶 跃 函数 
(step funciton〉 并 产生 最 后 的 输出 : h(x) =step (z) 
=step (Wl:x) 。 


感知 器 中 最 种 见 的 阶 跃 函数 叫 作 Heaviside 阶 跃 函 数 〈 见 公式 10- 
1) ， 有 时 候 会 使 用 融 符 号 的 函数 。 


输出 ; h(x)=step(W.x) 






阶 跃 函数 ，step(2) 








图 10-4: 线性 闷 值 单元 
公式 10-1: 感知 器 中 常见 的 阶 跃 函数 


) (ct -] (z<0) 
heaviside(z) = sgn(z) = (0 (z=0) 
|] (x0) 


单个 LTU 可 以 用 来 做 简单 的 线性 二 值 分 类 。 它 计算 输入 的 线性 组 
合 ， 如 果 络 果 超 出 了 国 值 ， 输 出 就 是 正 否 则 为 负 《〈 与 逻辑 回归 分 类 器 或 
者 线性 文 持 癌 量 机 一 样 ) 。 举 个 例子 ， 你 可 以 用 一 个 LTU 来 根据 花 办 的 


长 度 和 宽度 分 类 总 尾 伦 《正如 我 们 在 上 一 章 做 的 ， 添 加 一 个 xo=1 偶 
差 ) 。 训 练 LTU 的 意思 是 寻找 wo、w1 和 ws? 的 正确 值 〈“ 训 练 算法 待 会 讨 


论 ) 。109 


感知 器 就 是 个 单 层 的 LTU 馈 ， 每 个 神经 元 都 与 所 有 输入 相连 。 这 些 
连接 通常 使 用 称 为 输入 神经 元 的 特殊 传递 神经 元 来 表示 : 输入 什么 就 输 
出 什么 。 此 外 ， 还 会 加 上 一 个 额外 的 偶 差 特征 〈xo=1) 。 偶 兰 特 征 通 各 
用 偏差 神经 元 来 表示 ， 它 永远 都 只 输出 1。 


图 10-5 展 示 了 一 个 有 两 个 输入 和 三 个 输出 的 感知 器 。 这 个 感知 器 可 
以 将 实例 同时 分 为 三 个 不 同 的 二 进 制 类 ， 因 此 它 被 称 为 多 输出 分 类 融 。 








输出 
LTU ，…'… | 输出 层 
偏差 神经 元 输入 导 
(永远 输出 1) / 


输入 神经 元 
星 创 


Xl 


输入 








图 10-5: 感知 器 图 


那么 感知 器 是 如 何 被 训练 的 呢 ? Frank Rosenblatt 提 出 的 感知 器 训练 
算法 很 大 程度 上 受到 Hebb’s 定 律 的 启发 。 在 他 1949 年 出 版 的 著作 《行为 
的 组 织 》 中 ，Donald Hebb 提 到 如 果 一 个 生物 神经 元 总 是 触发 男 外 的 神 
经 元 ， 那 么 这 两 个 神经 元 之 间 的 连接 就 会 变 得 更 强 。 这 个 想法 后 来 被 
Siegrid Lowel 总 结 为 : 同时 处 于 激活 状态 的 细胞 是 会 连 在 一 起 的 。 这 个 
规律 后 来 变 成 了 其 名 的 Hebb 定 律 〈 又 叫 Hebbian 学 习 ) : 当 两 个 神经 元 
有 相同 的 输出 时 ， 它 们 之 间 的 连接 权重 就 会 增强 。 感 知 堪 就 是 使 用 这 个 
规则 的 变 体 进 行 训 练 ， 该 变种 还 考虑 了 网 络 错误 ， 对 于 导致 错误 输出 的 


连接 ， 它 不 会 加 强 该 连接 的 权重 。 更 具体 地 说 ， 感 知 器 一 次 供给 一 个 训 
练 实 例 ， 并 且 对 于 每 个 实例 它 都 会 进行 预测 。 对 于 产生 错误 预测 的 每 个 
输出 神经 元 ， 它 加 强 了 来 自 输入 的 连接 权重 ， 这 将 对 正确 的 预测 做 出 贡 
献 。 规 则 见 公 式 10-2。 


公式 10-2: 感知 器 学 习 规则 《权重 更 新 ) 





(next step) 本 

Ww. ， = w,, + n(y, —y,)%, 
L,] ,J / / l 
wi, j 是 第 i 个 输入 神经 元 和 第 j 个 输出 神经 元 的 连接 权重 。 
Xi 是 当前 训练 实例 的 第 i 个 输入 值 。 


-六 是 当前 训练 实例 的 第 j 个 输出 神经 元 的 输出 。 

yj 是 当前 训练 实例 的 第 j 个 输出 神经 元 的 目标 输出 。 

是 学 习 速 率 。 

每 个 输出 神经 元 的 决策 边界 是 线性 的 ， 所 以 感知 器 无 法 学 习 复 杂 的 
模式 (这 点 和 逻辑 回归 分 类 器 一 样 ) 。Rosenblatt 证 明 如 果 训 练 实例 是 
线性 可 分 的 ， 这 个 算法 会 收敛 到 一 个 解 回 。 这 被 称 为 感知 器 收敛 定 理 。 


Scikit-Learn 提 供 了 一 个 实现 单一 LITU 网 络 的 Perceptron 类 。 它 基本 
可 以 在 总 尾 花 数据 集 上 如 期 工作 〈 见 第 4 章 ) : 











import numpy as np 
from sklearn.datasets import load iris 
from sklearn.linear_model import Perceptron 


iris = load iris() 

X = iris.data[:, (2, 3)] # petal length, petal width 
y = (iris.target == 0).astype(np.int) # Iris Setosa? 
per_clf = Perceptron(random_ state=42) 

per_clf.fit(X, y) 


y_pred = per_clf.predict([[2, 0.5]]) 


==3i 





你 可 能 已 经 注意 到 感知 器 学 习 算法 酷似 随机 梯度 下 降 法 。 事 实 上 ， 
在 Scikit-Learn 里 ，Perceptron 类 的 行为 等 同 于 使 用 以 下 超 参 数 的 
SGDClassifier: loss="perceptron", learning rate="constant"，eta0=1 (学 


习 速 率 ) ， 以 及 penalty=None〔( 不 做 正则 化 〉。 


注意 和 未 辑 回 归 分 类 露 相反， 感知 器 不 输出 茶 个 类 概率 。 它 只 能 根 
据 一 个 固定 的 阐 值 来 做 预测 。 这 也 是 更 应 该 使 用 逻辑 回归 而 不 是 感知 器 
的 一 个 原因 。 


在 1969 年 的 名 为 《感知 器 》 的 专著 中 ,Marvin Minsky 和 Seymour 
Papert 强 调 了 感知 器 的 一 系列 缺点 ， 特 别 是 它 无 法 处 理 的 一 些 很 微小 的 
问题 ， 比 如 异 或 分 类 问题 (XOR) ， 见 图 10-6 左 侧 。 当 然 这 个 问题 在 其 
他 任何 的 线性 分 类 模型 中 一 样 存 在 ， 只 不 过 研究 者 对 感知 器 的 期 望 太 
高 ， 因 此 失望 也 更 大 : 结果 就 是 ， 很 多 研究 者 完全 放弃 连接 机 制 
(connectionism， 即 神经 网 络 的 研究 ) ， 而 倾 回 于 更 高 层次 的 问题 ， 如 
逻辑 、 问 题解 决 和 搜索 。 


不 过 ， 事 实证 明 感 知 器 的 一 些 限 制 可 以 通过 将 多 个 感知 器 堆 登 起 来 
的 方式 来 消除 ， 这 种 形式 的 ANN 就 是 多 层 感知 器 〈Multi-Layer 
Perceptron) 。 实 践 中 ，MLP 可 以 解决 异 或 问题 ， 比 如 可 以 计算 一 下 图 
10-6 中 的 MLP 的 结果 来 验证 : 对 于 输入 的 不 同 组 合 ，〈0，0) 或 者 
(1，1) 会 产生 0， 而 (0，1) 或 者 则 产生 1。 

















图 10-6: 和 寞 或 分 类 问题 和 用 来 解决 它 的 MLP 
多 层 感知 器 和 反 回 传播 


一 个 MLP 包 含 一 个 〈 透 传 ) 输入 层 ， 一 个 或 者 多 个 被 称 为 隐藏 层 的 
LTU 层 ， 以 及 一 个 被 称 为 输出 层 的 LTU 组 成 的 最 终 层 〈 见 图 10-7) 。 除 
了 输出 层 之 外 ， 每 层 都 包含 了 一 个 偏 移 神经 元 ， 并 且 与 下 一 层 完全 相 
连 。 如 果 一 个 ANN 有 2 个 以 及 2 个 以 上 的 隐藏 层 ， 则 被 称 为 深度 神经 网 络 
(DNN) 。 











图 10-7: 多 层 感知 器 


多 年 来 ， 研 究 者 都 为 如 何 训 练 MLP 而 头疼 不 已 ， 一 直 没 有 进展 。 直 
到 1986 年 ，D.E.Rumelhart 发 表 了 一 篇 介绍 反 向 传播 训练 算法 由 的 开创 性 
论文 《https://goo.gJ/W17Xyc) 1 他。 今天 我 们 称 其 为 使 用 了 反 向 自动 微分 
的 梯度 下 降 法 (梯度 下 降 在 第 4 间 介 绍 过 ， 目 动 微 分 在 第 9 章 介 绍 过 ) 。 


对 于 每 一 个 训练 实例 ， 算 法 将 其 发 送 到 网 络 中 并 计算 每 个 连续 层 中 
的 每 个 神经 元 的 输出 〈 这 是 正 癌 过 程 ， 与 做 预测 的 过 程 一 样 ) 。 然 后 它 
会 度量 网 络 的 输出 误差 (“对比 期 望 值 和 实际 的 网 络 输出 )， 然 后 它 会 计 
算 最 后 一 个 隐藏 层 中 的 每 个 神经 元 对 输出 神经 元 的 误差 的 页 献 度 。 之 后 
它 继 续 测 量 这 些 误差 页 献 中 有 多 少 来 自前 一 个 隐藏 层 中 的 每 个 神经 元 ， 
这 个 过 程 一 直 持 续 到 输入 层 (也 就 是 第 一 层 ) 。 这 个 反 回 传递 过 程 通过 
在 网 络 中 辣 后 传播 误差 梯度 有 效 地 测量 网 络 中 所 有 连接 权重 的 误 差 梯度 
(这 也 是 它 名 字 的 来 源 ) 。 如 果 你 看 一 下 附录 DD 中 的 反问 自 动 微分 算 
法 ， 你 会 及 现 反 向 传播 的 正 占 和 反问 传递 都 只 是 简单 地 执行 反 同 模式 的 
目 动 微 分 。 反 加 传播 算法 的 最 后 一 步 是 对 网 络 中 所 有 连接 权重 执行 梯度 
下 降 法 ， 使 用 之 前 度量 的 误差 梯度 。 






































简 而 言 之 : 对 于 每 个 训练 实例 ， 反 回 传 播 算法 先 做 一 次 预测 《〈 正 加 
过 程 》， 上 度量 误 差 ， 然 后 反 辐 的 志 历 每 个 层次 来 度量 每 个 连接 的 误差 页 
献上 度 〈 反 回 过 程 》， 最 后 再 微调 每 个 连接 的 权重 来 降低 误差 (梯度 下 


降 ) 。 


为 了 让 这 个 算法 正常 工作 ， 作 者 对 MLP 架 构 做 了 一 个 关键 的 调整 : 
把 阶 跃 函数 改 成 了 逻辑 函数 : o (z) =1/ (1+exp 〈(-z) ) 。 这 是 非常 关 
键 的 一 步 ， 因 为 阶 跃 函数 只 包含 平面 ， 所 以 没有 梯度 (梯度 下 降 在 平面 
上 无 法 移动 ) ， 但 是 逻辑 函数 则 有 着 定义 良好 的 偏 导 ， 梯 度 下 降 可 以 在 
每 一 步 都 做 调整 。 除 了 逻辑 函数 ， 反 回 传 播 算 法 还 可 以 和 其 他 激活 函数 
一 起 使 用 。 最 流行 的 两 个 激活 函数 是 : 

双 曲 正切 函数 (z) =20 (2z) -1 

与 逻辑 图 数 类 似 ， 它 是 一 个 S 形 曲线 ， 连 续 且 可 微分 ， 不 过 它 的 输 
出 是 -1 到 1 之 间 的 值 (逻辑 是 0 到 1 之 间 的 值 ) ， 这 会 让 每 层 的 输出 在 训 
练 开 始 时 或 多 或 少 地 标准 化 (以 0 为 中 心 ) 。 这 通常 有 助 于 快速 融合 。 

ReLU 函 数 〈 在 第 9 章 介 绍 过 ) 

ReLU (z) =max (0，z) 。 这 个 函数 也 是 连续 的 ， 不 过 在 z=0 时 不 
可 微分 (坡度 的 突然 变化 可 以 使 梯度 下 降 反 弹 ) 。 不 过 实践 中 它 工 作 民 
好 ， 而 且 计 算 速 度 很 快 。 最 重要 的 是 ， 由 于 它 没 有 最 大 输出 值 ， 对 于 消 
除 梯度 下 降 的 一 些 问题 很 有 帮助 〈 我 们 将 在 第 11 章 详细 讨论 ) 

这 些 常 见 激活 函数 和 它们 的 导数 如 图 10-8 所 示 。 

















激活 函 孝 























图 10-8: 激活 函数 和 它们 的 导数 


MLP 和 弟 利 被 用 来 做 分 类 ， 每 个 输出 对 应 一 个 不 同 的 二 进 制 分 类 《 比 
如 ， 垃 圾 邮件 /正常 邮件 、 紧 急 / 非 紧急 ， 等 等 ) 。 当 每 个 分 类 是 互 斥 的 
情况 下 《比如 将 图 片 分 类 为 数字 0 一 9 的 场景 ) ， 输 出 层 通常 被 修改 成 一 
个 共享 的 softrmax 函 数 〈 见 图 10-9) 。softmax 函 数 在 第 3 章 介 绍 过 。 每 个 
神经 元 的 输出 对 应 于 相应 分 类 的 估计 概率 。 注 意 信 号 是 单 疝 流动 的 (从 
输入 流 癌 输出 )， 所 以 这 种 染 构 是 前 馈 神经 网 络 (FNN) 的 一 个 范例 。 


入 神经 元 瑶 似 实现 了 一 个 租 炸 的 S 形 激活 函数 ， 所 以 研究 者 花 
了 很 长 时 间 在 S 形 函数 上 。 但 事实 证 明 ，ReLU 激 活 函 数 通 常 在 ANN 中 工 
作 得 更 好 ， 这 是 被 生物 类 比 误 导 的 案例 之 一 。 


\ 隐藏 导 
,， (如 ReLU) 











图 10-9: 用 以 分 类 的 现代 MLP (包含 ReLU 和 softmax) 


[1 “神经 活动 中 内 在 思想 的 逻辑 演算 ”，W.McCulloch 和 
Wo.Pitts (1943) 。 
1 图 片 由 Bruce Blaus 拍 摄 (知识 共享 3.0， 


https://creativecommons.org/licenses/by/3.0/〉， 转 载 自 
https://en.wikipedia.org/wiki/Neuron。 

[3] 在 机 器 学 习 的 上 下 文中 ,，“ 神 经 网 络 ” 一 般 指 的 是 人 工 神经 网 络 ， 而 
不 是 生物 神经 网 络 。 

[4 ”由 S.Ramon y ”Caja (公共 领域 ) 绘制 大 脑 皮 质 层 。 转 载 自 
https://en.wikipedia.org/wiki/Cerebral_cortex。 

[5] Perceptron 有 时 用 来 表示 具有 单个 LTU 的 小 型 网 络 。 

[6] 注意 答案 往往 不 唯一 ， 通 常 来 说 ， 如 采 数 据 是 线性 可 分 的 ， 那 么 总 
有 一 个 无 线 的 超 平面 可 以 划分 它们 。 

[| “通过 错误 传播 学 习 内 部 表示 ”，D.Rumelhart、G.Hinton 和 
R.Williams (1986) 。 

[8] 该 算法 实际 由 不 同 领 域 的 多 个 研究 人 员 发 明 ， 从 1974 年 ，P.Werbos 





的 研究 开始 。 


用 TensorFlow 的 高 级 API 来 训练 MLP 


用 TensorFlow 训 练 MLP 的 最 简单 方式 是 使 用 它 的 高 级 API 
TF.Leam， 这 和 Scikit-learn 的 API 非 常 类 似 。 用 DNNClassifier 类 来 训练 一 
个 有 着 任意 数量 隐藏 展 ， 并 包含 一 个 用 来 计算 类 别 概率 的 softmax 输 出 
层 的 深度 神经 网 络 都 易如反掌 。 比 如 ， 下 面 的 代码 训练 一 个 用 于 分 类 有 
两 个 隐藏 层 〈 一 个 有 300 个 神经 元 ， 另 一 个 有 100 个 ) ， 以 及 一 个 
softmax 输 出 层 的 具有 10 个 神经 元 的 DNN: 














import tensorflow as tf 


feature _ columns = tf.contrib.learn.infer_real valued columns_ from input(Xx_train) 
dnn_clf = tf.contrib,.learn.DNNClassifier(hidden units=[300, 100], n_classes=10, 

feature_columns=feature_columns) 
dnn_clf.fit(x=X_ train, y=y_train, batch_ size=50, steps=40000) 





如 果 你 在 MNIST 数 据 集 来 执行 上 面 的 代码 (缩放 之 后 ， 例 如 使 用 
Scikit-Leam 的 StandardScaler 来 缩放 ) ， 你 可 以 得 到 一 个 在 测试 集 上 的 准 
确 率 达到 98.1% 的 模型 ! 这 比 第 3 章 里 最 好 的 模型 还 要 好 : 





>>> from sklearn.metrics import accuracy_score 
>>> y_pred = list(dnn_clf.predict(Xx_ test)) 

>>> accuracy_score(y_test, y_pred) 
0.98180000000000001 





库 还 包含 了 一 些 方便 的 函数 来 评估 模型 : 





>>> dnn_clf.evaluate(X test, y_test) 
{'accuracy': 0.98180002, 'global step': 40000, 'loss': 0.073678359} 





在 幕后 ，DNNClassifier 类 基于 ReLU 激 活 函 数 (我 们 可 以 通过 设置 
activation_fn 超 参数 来 调整 ) 创建 所 有 的 神经 元 层次 。 输 出 层 依赖 于 
softmax 子 数 ， 成 本 函数 是 交叉 焙 ( 详 见 第 4 章 ) 。 





区 ieiean API 还 是 比较 新 的 ， 所 以 在 阅读 本 书 时 ， 例 子 中 使 用 
的 名 称 和 函数 可 能 会 有 所 发 展 ， 不 过 基本 的 理念 是 不 变 的 。 


使 用 纯 TensorFlow 训 练 DNN 


如 果 你 想 对 网 络 的 架构 有 更 多 的 控制 ， 你 可 以 使 用 TensorFlow 的 低 
级 Python API《〈 见 第 9 章 ) 。 在 本 节 我 们 会 用 低级 API 构 建 一 个 和 上 一 节 
相同 的 模型 ， 实 现 一 个 小 批 次 梯度 下 降 来 训练 MNIST 数 据 集 。 首 先是 构 
建 阶段 ， 建 立 TensorFlow 的 计算 图 ， 第 二 步 是 执行 阶段 ， 有 具体 运行 这 个 
图 来 训练 模型 。 


构建 阶段 


首先 需要 引入 TensorFlow 库 ， 然 后 是 指定 输入 和 输出 的 个 数 ， 并 设 
置 每 层 的 隐藏 神经 元 的 个 数 : 











import tensorflow as tf 


n_inputs = 28*28 # MNIST 
n_hidden1 = 300 

n_hidden2 = 100 

n_outputs = 10 








接 下 来 ， 与 第 9 划一 样 ， 你 可 以 使 用 占 位 符 厄 点 来 表示 训练 数据 和 
目标 。X 的 形状 只 做 了 部 分 定义 。 我 们 知道 它 会 是 一 个 二 维 的 张 量 (一 
个 矩阵 ) ， 一 个 维度 是 实例 ， 男 一 个 维度 是 特征 ， 我 们 还 知道 特征 的 数 
量 为 28x28〔 每 个 像 系 一 个 特征 ) ， 但 是 我 们 还 不 知道 每 个 训练 批 次 将 
包含 多 少 个 实例 。 因 此 X 的 形状 为 《None，n_inputs) 。 类 似 的 我 们 知 
道 y 是 一 个 一 维 的 张 量 ， 每 个 实例 都 有 一 个 入 口 ， 但 是 我 们 现在 还 不 知 
道 训练 批 次 的 大 小 ， 所 以 形状 是 None。 








X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") 
y = tf.placeholder(tf.int64, shape=(None), name="y") 





现在 我 们 来 创建 神经 网 络 。 占 位 符 节 点 X 将 用 作 输 入 层 ;， 在 执行 
期 ， 它 每 次 都 会 被 训练 批 次 蔡 换 (注意 训练 批 次 中 的 所 有 实例 将 由 神经 
网 络 同时 人 处理) 。 然 后 你 需要 创建 两 个 隐藏 层 和 一 个 输出 层 。 两 个 隐藏 
层 基本 上 是 一 样 的 : 唯一 的 区 别 是 它们 和 谁 链接 ， 以 及 每 层 中 包含 的 神 
经 元 数量 。 输 出 层 也 一 样 ， 不 过 它 会 用 softmax 而 不 是 ReLU 作 为 激活 函 
数 。 我 们 创建 一 个 neuron_layer 〈) 函数 来 每 次 创建 一 个 层 。 它 需要 的 


参数 包括 : 输入 、 神 经 元 数量 、 激 活 函 数 、 层 次 的 名 字 : 





def neuron_layer(X，n_neurons，name，activation=None ) : 
with tf,name_scope(name ) : 
n_inputs = int(X.get_shape()[1]) 


stddev = 2 / np.sqrt(n_inputs) 
init = tf,.truncated normal((n_inputs, n_neurons), stddev=stddev) 
WwW = tf.Variable(init, name="weights") 
b = tf.Variable(tf.zeros([n_neurons]), name="biases") 
z= tf.matmul(X, W) + b 
If activation=="relu": 
return tf.nn.relu(z) 
else: 
return Zz 





我 们 来 逐 行 看 一 下 这 上 段 代 码 : 


1. 首 先 通 过 层 的 名 称 来 创建 一 个 作用 域 : 它 将 包含 该 层 的 所 有 计算 
机 节点 。 这 是 可 选 的 ， 不 过 如 果 节 点 组 织 得 很 好 ， 在 TensorBoard 上 图 
看 起 来 会 好 看 一 些 。 


2. 通 过 答 看 输入 和 窍 阵 的 形状 并 获取 第 二 个 维度 《第 一 个 维度 对 应 的 
古 实 例 ) 的 尺寸 来 决定 输入 的 数量 。 


3. 接 下 来 的 三 行 创建 了 一 个 保存 权重 和 矩阵 的 变量 W。 它 是 一 个 二 维 
张 量 包含 了 每 个 输入 和 每 个 神经 元 间 连 接 的 权重 ， 因 此 ， 它 的 形状 是 
Cn_inputs，n_neurons) 。 我 们 使 用 标 准 偏差 为 “Y Pipe 的 截断 出 正 态 
(高 斯 ) 分 布 进行 随机 初始 化 。 使 用 一 个 指定 的 标准 偏差 会 让 算法 收敛 
得 更 快 〈( 我 们 在 第 11 章 会 进一步 讨论 ， 这 种 通过 微小 调整 就 会 获得 巨大 
收益 的 做 法 ) 。 为 所 有 隐藏 层 随机 地 初始 化 连接 权重 值 是 非常 重要 的 ， 

这 可 以 避免 任何 可 能 导致 梯度 下 降 出 现 无 法 终止 的 对 称 性 。 


4. 下 一 行 创建 了 变量 b 来 表示 偏 套 ， 初 始 化 为 0( 这 里 没有 对 称 性 问 
题 ) ， 每 个 神经 元 有 一 个 偏差 参数 。 


,创建 一 个 对 图 z=XWb。 对 于 批 次 中 的 所 有 实例 ， 访 向量 实现 
0 0 和 项 的 
双重 之 和 


6. 最 后 ， a 回 relu (z) 《〈 即 ， 
max (0，z) ) ， 人 否则 会 直接 返 


























好 了 ， 现 在 有 了 一 个 很 棒 的 创建 神经 元 的 函数 了 。 我 们 来 用 它 创 建 
一 个 深度 神经 网 络 吧 ! 第 一 个 隐藏 层 需要 X 作 为 其 输入 。 第 二 层 则 以 第 
一 层 的 输出 作为 输入 。 最 后 ， 输 出 层 以 第 二 层 的 输出 作为 输入 : 





with tf.name_scope("dnn"): 
hidden1 = neuron_layer(X, n_hidden1, "hiddeni1", activation="relu") 
hidden2 = neuron_layer(hiddeni1, n_hidden2, "hidden2", activation="relu") 
logits = neuron_layer(hidden2, n_outputs, "outputs") 





注意 我 们 又 使 用 了 命名 空间 来 保持 名 字 的 清晰 。 另 外 ，logits 是 经 
过 softmax 激 活 函数 之 前 神经 网 络 的 输出 : 基于 优化 的 考虑 ， 我 们 将 在 
稍 后 处 理 softmax 计 算 。 


如 你 所 想 ，TensorFlow 提 供 了 很 多 便利 的 函数 来 创建 标准 神经 网 络 
层 ， 所 以 通常 无 须 定 义 自 己 的 neuron_layer () 函数 。 比 如 TensorFlow 的 
fully_connected () 子 数 会 创建 全 连接 层 ， 其 中 所 有 输入 都 连接 到 该 层 
中 的 所 有 神经 元 。 这 个 函数 会 创建 权重 和 偏差 变量 ， 使 用 合适 的 初始 化 
策略 ， 使 用 ReLU 激 活 函 数 〈 可 以 通过 activation_fn 参 数 来 修改 ) 。 在 第 
11 章 我 们 会 看 到 ， 它 还 文 持 规则 化 和 归 一 化 参数 。 我 们 用 
fully_connected 〈) 函数 来 蔡 换 自 己 写 的 neuron_layer () 函数 ， 只 需要 
导入 函数 并 蔡 换 抒 DNN 的 构造 即 可 : 











from tensorfJlow,contrib, Jayers import fully_connected 


with tf.name_scope("dnn"): 
hidden1 = fully_connected(X，n_hidden1，Sscope="hidden1”) 
hidden2 = fully_connected(hidden1，n_hidden2，Sscope="hidden27”) 
logits = fully_connected(hidden2, n_outputs, scope="outputs", 
activation_fn=None) 








人 里 包含 了 很 多 有 用 的 函数 ， 不 过 其 中 很 多 
代码 都 是 实验 性 质 的 ， 还 没有 被 正式 收录 到 TensorFlow 的 API 中 。 
fully_connected () 《以 及 其 他 很 多 contrib 包 中 的 代码 ) 函数 将 来 可 能 
会 变更 。 


我 们 已 经 有 了 神经 网 络 模 型 ， 现 在 需要 定义 成 本 函数 用 以 训练 它 。 
正如 第 4 章 做 的 Softmax 回 归 ， 我 们 这 里 会 使 用 交叉 焙 。 之 前 讨论 过 ， 交 
文 精 会 处 昼 那些 估计 目 标 闪 的 概率 较 低 的 模型 。 TensorFlow 提 供 了 很 多 

疯 数 来 计算 交 文 粹 ， 我 们 这 里 会 用 








spare_soft_max_cross_entropy_with_logits () : 它 会 根据 “logits” 来 计算 
交 文 业 〈( 比 如 ， 在 通过 softmax 激 活 函 数 之 前 网 络 的 输出 ) ， 并 且 期 望 

以 0 到 分 类 个 数 减 1 的 整数 形式 标记 在 我 们 的 例子 中 是 从 0 到 9) 。 这 会 
计算 出 一 个 包含 每 个 实例 的 交 义 业 的 一 维 张 量 。 可 以 使 用 TensorFlow 的 
reduce_mean 〈) 函数 来 计算 所 有 实例 的 平均 交 义 烂 。 





with tf.name_scope("loss"): 
xentropy = tf.nn.sparse_softmax_cross_entropy_with logits( 
labels=y, logits=]ogits) 
loss = tf,.reduce mean(xentropy, name="]loss") 





ne ota Goes entiopy WO () 与 先 应 用 
softmax 函 数 再 计算 交叉 彤 的 效果 是 一 样 的 ， 不 过 它 更 高 效 一 些 ， 另 外 
它 会 处 理 一 些 边界 值 如 loits 等 于 0 的 情况 。 这 也 是 为 什么 我 们 之 前 没有 
使 用 softmax 激 活 函 数 的 原因 。 此 外 还 有 一 个 
softmax_cross_entropy_with_ logits 〈) 函数 ， 它 以 one-hot 的 形式 获取 标 
签 〈 而 不 是 从 0 到 分 类 数量 减 1) 。 


现在 我 们 有 了 神经 网 络 模型 ， 有 了 成 本 函数 ， 是 时 候 来 定义 一 个 梯 
度 下 降 优 化 器 (GradientDescentOptimizer) 了 ， 这 个 优化 器 会 调整 模型 
i 正如 我 们 在 第 9 章 做 过 的 ， 没 有 什 
么 新 东西 : 





Jearning_rate = 0.01 


with tf.name_scope("train"): 
optimizer = tf.train,.GradientDescentOptimizer(learning_rate) 
training_op = optimizer .minimize(loss) 








构建 期 的 最 后 一 个 重要 步 又 是 指定 如 何 对 模型 求 值 。 我 们 简单 地 将 
精度 用 作 性 能 指标 。 首 先 ， 对 于 每 个 实例 ， 通 过 检查 最 高 logit 值 是 售 对 
应 于 目标 类 来 确定 神经 网 络 的 预测 是 否 正 确 。 这 里 可 以 使 用 
in_ top k〈) 函数 ， 这 个 函数 会 返回 一 个 一 维 的 张 量 ， 其 值 为 布尔 类 
型 ， 因 此 我 们 需要 将 值 强制 装 换 成 浮 点 型 然后 计算 平均 值 ， 这 会 得 出 网 
络 的 总 体 精 度 。 








with tf.name_scope("eval"): 
correct = tf.nn.in_ top_k(logits, y, 1) 
accuracy = tf,.reduce mean(tf.cast(correct, tf.float32)) 





与 往常 一 样 ， 我 们 创建 季 扣 初始 化 变量 ， 创 建 Saver 将 训练 后 的 模 
型 保存 到 磁盘 : 





init = tf.global variables initializer() 
saver = tf.train.Saver() 








好 了 ! 构建 期 终于 结束 了 。 一 共 不 到 40 行 代码 ， 不 过 很 清晰 : 我们 
创建 了 用 于 输入 和 目标 值 占 位 符 节 点 ， 创 建 了 用 以 创建 神经 网 络 的 函 
数 ， 使 用 它 创建 DNN， 定 义 了 成 本 函数 ， 创 建 了 一 个 优化 器 ， 节 后 还 定 
义 了 性 能 度量 。 现 在 我 们 进入 执行 期 。 


执行 阶段 


这 部 分 会 短 很 多 ， 也 简单 很 多 。 首 先 ， 加 载 MNIST 数 据 集 。 可 以 像 
上 一 章 一 样 用 Scikit-Leam， 不 过 TensorFlow 提 供 了 自己 的 助手 函数 来 加 
载 数据 ， 缩 放 〈 从 0 到 1) ， 打 乱 ， 还 提供 了 一 个 简单 函数 每 次 加 载 一 个 
小 批 次 。 这 里 用 TensorFlow 提 供 的 函数 ; 








from tensorflow.examples.tutorials.mnist Import input_data 
mnist = input_data.read data sets("/tmp/data/") 








然后 定义 需要 运行 的 epoch 数 量 ， 以 及 小 批 次 大 小 : 





n_epochs = 400 
batch_size = 50 





现在 就 可 以 训练 模型 了 : 





with tf,Sesslion() as sess: 
init.run() 
for epoch in range(n_epochs): 
for iteration in range(mnist.train.num examples // batch_ size): 
X_batch，y_batch = mnist.train.next_batch(batch_size) 
sess.run(training_op, feed dict={X: XxX _ batch, y: y_batch}) 
acc_train = accuracy.eval(feed dict={X: XxX_batch, y: y_batch}) 
acc_test = accuracy.eval(feed dict={X: mnist,test,. images， 
y: mnist.test.1labels}) 
print(epoch, "Train accuracy:", acc_train, "Test accuracy:", acc_test) 


save_path = saver.save(sess, "./my_model final.ckpt") 


上 面 的 代码 先 打 开 了 一 个 TensorFlow 的 会 话 ， 运 行 初始 化 代码 来 初 
始 化 所 有 的 变量 。 运 行 主 训练 循环 ， 在 每 一 个 周期 (epoch〉 中 ， 友 代 
一 组 和 训练 集 大 小 相对 应 的 批 次 ， 每 一 个 小 批 次 通过 next_batch () 方 
法 来 获得 ， 然 后 执行 训练 操作 ， 将 当前 小 批 次 的 输入 数据 和 目标 传 入 。 
接 下 来 ， 在 每 个 周期 结束 的 时 候 ， 代 码 会 用 上 一 个 小 批 次 以 及 全 量 的 训 
练 集 来 评估 模型 ， 并 打印 结果 。 最 后 ， 将 模型 的 参数 保存 到 硬盘 。 


使 用 神经 网 络 


现在 神经 网 络 已 经 说 训练 好 了 ， 可 以 用 它 来 做 预测 了 。 保 留 构 建 器 
的 代码 ， 修 改 执行 期 的 代码 如 下 所 示 : 











with tf.Session() as sess: 
saver.restore(sess, "./my_model final.ckpt") 
X new_ scaled = [...] # some new images (scaled from 0 to 1) 
Z = logits.eval(feed dict={X: X_new_scaled}) 
y_pred = np.argmax(Z, axis=1) 


上 面 的 代码 首先 从 硬盘 上 加 载 模型 参数 ， 然 后 加 载 需要 被 分 类 的 新 
图 片 。 记 住 应 用 与 训练 数据 相同 的 特征 缩放 〈 这 里 是 从 0 到 1) 。 然 后 评 
估 logits 节 点 。 如 果 你 想 知 道 所 有 分 类 的 概率 ， 你 可 以 给 logits 使 用 
softmax 〈) 函数 ， 如 果 你 只 是 想 预 测 一 个 分 类 ， 只 需要 选 出 那个 有 最 
大 logit 值 的 即 可 (可 以 使 用 argmax() 函数 完成 ) 。 


[1 使 用 截断 的 正 态 分 布 而 不 是 常规 的 正 态 分 布 ， 保 证 这 里 不 存在 任何 
减 慢 训练 的 大 权重 。 

[2] 例如 ， 如 有 果 将 所 有 的 权重 设置 为 0%， 然 后 所 有 的 神经 元 输出 为 0， 对 
于 给 定 隐 茂 层 的 所 有 神经 元 ， 误 差 梯度 也 是 相同 的 。 然 后 梯度 下 降 步骤 
在 每 一 层 以 相同 的 方式 更 新 所 有 神经 元 的 权重 ， 因 此 它们 将 保持 相等 。 
a 
分 人 红 元 一 件 。 























微调 神经 网 络 的 超 参 数 


神经 网 络 的 灵活 性 也 恰好 是 它 的 一 个 主要 的 短 板 : 有 太 多 的 超 参数 
需要 调整 。 不 仪 仪 古 可 以 使 用 任何 的 网 络 拓扑 (神经 元 是 如 何 彼 此 连接 
的 ) ， 即 使 是 简单 的 MLP， 也 有 很 多 可 以 调整 的 参数 : 你 可 以 修改 层 
数 ， 每 层 的 神经 元 数 ， 每 层 用 的 激活 函数 类 型 ， 初 始 化 逻辑 的 权重 ， 等 
等 。 怎 么 才能 知道 超 参 数 的 何 种 组 合适 合 你 呢 ? 


当然 ， 正 如 上 一 章 展 示 的 ， 你 可 以 使 用 具有 交叉 验证 的 网 格 搜索 来 
查找 正确 的 超 参数 。 不 过 有 如 此 多 的 超 参 数 需 要 调整 ， 另 外 ， 在 一 个 大 
的 数据 集 上 训练 神经 网 络 会 很 耗 时 ， 在 有 限 的 时 间 内 ， 你 只 可 能 探索 很 
小 一 部 分 超 参 数 。 不 过 用 我 们 在 第 2 章 提 到 的 随机 搜索 法 
(https://goo.g/QFjMKu) 会 好 很 多 。 另 外 一 个 选项 是 使 用 像 
Oscar (http://oscar.calldesk.ai/) 这 样 的 工具 ， 它 实现 了 更 复杂 的 算法 ， 
可 以 帮 你 更 快 地 找 出 超 参 数 集 。 


对 于 缩小 搜索 空间 来 说 ， 了 解 每 个 超 参数 的 合理 取 值 会 很 有 帮助 。 
我 们 从 隐藏 层 的 个 数 开始 。 


隐藏 层 的 个 数 


对 很 多 问题 ， 你 可 以 从 单一 的 隐藏 层 开始 ， 而 且 通 第 可 以 获得 很 好 
的 效果 。 事 实 上 人 们 发 现 只 要 神经 元 足够 多 ， 仅 有 一 个 隐藏 层 的 MLP 都 
可 以 建 模 大 部 分 复杂 的 函数 。 很 长 一 段 时 间 里 ， 研 究 者 们 都 认为 无 须 进 
一 步 研 究 更 深 的 神经 网 络 。 不 过 他 们 忽视 了 深层 网 络 比 浅 层 网 络 有 更 高 
的 参数 效率 : 深层 网 络 可 以 用 非常 少 的 神经 元 来 建 模 复杂 函数 ， 因 此 训 
练 起 来 更 加 快速 。 


要 理解 为 什么 会 这 样 ， 设 想 你 被 要 求 用 一 个 绘图 软件 画 一 片 和 森林 ， 
但 是 不 允许 找 贝 粘贴 。 你 只 能 依次 画 每 一 棵 树 ， 每 一 个 权 于 ， 每 一 片 叶 
子 。 如 果 可 以 先 国 一 片 叶子 ， 然 后 拷贝 粘贴 成 一 个 校 二， 再 拷贝 粘贴 成 
一 柠 树 ， 最 后 再 找 贝 粘贴 整 株 树 形 成 森林 ， 那 速度 将 会 大 大 提高 。 现 实 
世界 的 数据 往往 会 按照 层次 结构 组 织 ， 而 DNN 天 生 的 就 很 擅长 处 理 这 种 
数据 : 低级 隐藏 层 用 以 建 模 低 层 结构 《比如 ， 各 种 形状 和 方向 的 线 
段 } ， 中 级 隐藏 层 组 合 这 些 低层 结构 来 建 模 中 层 结构 〈 比 如 ， 正 方形 、 
圆 形 等 ) ， 高 级 隐藏 层 和 输出 层 组 合 这 些 中 导线 构 来 建 模 高 层 结构 〈 比 


























如 ， 人 脸 ) 。 


分 层 的 架构 不 但 可 以 帮助 DNN 更 快 地 归纳 出 好 方案 ， 还 可 以 提高 对 
于 新 数据 集 的 泛 化 能 力 。 比 如 ， 你 已 经 训练 出 了 一 个 可 以 识别 人 脸 的 模 
型 ， 现 在 你 想 要 训练 一 个 新 的 模型 来 识别 用 型， 你 可 以 完全 重用 第 一 个 
模型 中 的 低层 神经 网 络 。 不 必 随 机 初始 化 新 的 网 络 中 低层 的 权重 和 侦 
送 ， 你 可 以 直接 用 第 一 个 网 络 的 低层 神经 网 络 。 这 样 新 网 络 无 须 从 头 在 
图 片 中 学 习 所 有 低层 的 结构 ， 而 只 需要 从 高 层 结构 学 习 即 可 《比如 发 
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总 之 ， 对 于 大 多 数 问 题 来 说， 你 都 只 需要 一 个 或 者 两 个 隐藏 层 来 处 
理 〈 对 于 MINST 数 据 集 ， 一 个 拥有 数 百 个 神经 元 的 隐藏 层 惑 可 以 达到 
97% 的 精度 ， 而 用 同样 数量 神经 元 构建 的 两 层 隐藏 层 就 可 以 获得 超过 
989% 的 精度 ， 而 且 训练 时 间 基 本 相同 ) 。 对 于 更 复杂 的 问题 ， 你 可 以 逐 
渐 增 减 隐藏 层 的 层次 ， 直 到 在 训练 集 上 产生 过 度 拟 合 。 非 常 复 杂 的 问 
题 ， 比 如 大 图 瞩 的 分 类 ， 或 者 语音 识别 ， 通 常 需要 数 十 层 的 隐藏 属 〈 其 
至 数 百 层 ， 非 全 连接 的 层 ， 我 们 将 在 第 13 章 讨论 ) ， 当 然 它 们 需要 超大 
的 训练 数据 集 。 不 过 ， 很 少 会 从 头 构建 这 样 的 网 络 : 更 种 见 的 是 重用 别 
人 训练 好 的 用 来 处 理 类 似 任务 的 网 络 。 这 样 训练 就 会 快 很 多 ， 而 且 需 要 
的 数据 量 也 会 少 很 多 (我 们 会 在 第 11 半 讨论) 。 


每 个 隐藏 层 中 的 神经 元 数 


显然 ， 输 入 输出 层 中 的 神经 元 数 由 任务 要 求 的 输入 输出 类 型 决定 。 
比如 ，MNIST 任 务 需 要 28x28=784 个 输入 神经 元 和 10 个 输出 神经 元 。 对 
于 隐藏 层 来 说 ， 一 个 常用 的 实践 是 以 漏斗 型 来 定义 其 尺寸 ， 每 层 的 神经 
元 数 依次 减少 : 原因 是 许多 低级 功能 可 以 合并 成 数量 更 少 的 高 级 功能 。 
比如 ， 一 个 典型 的 MINST 的 神经 网 络 有 两 个 隐藏 层 ， 第 一 层 有 300 个 神 
经 元 ， 而 第 二 层 有 100 个 神经 元 。 不 过 ， 这 种 实践 现在 也 不 那么 常用 
了 ， 你 可 以 将 所 有 层次 定义 为 同一 尺寸 ， 每 个 隐藏 层 各 150 个 神经 元 : 
这 只 是 一 个 超 参 数 调整 。 与 层次 的 数量 一 样 ， 你 可 以 逐步 添加 神经 元 的 
数量 ， 直 到 出 现 过度 拟 合 。 通 常 来 说 ， 通 过 增加 每 层 的 神经 元 数量 比 增 
加 层 数 会 产生 更 多 的 消耗 。 不 幸 的 是 ， 正 如 你 所 看 到 的 ， 找 到 完美 的 神 
经 元 数量 仍然 是 黑 科 技 。 


一 个 更 简单 的 做 法 是 使 用 《〈《 比 实际 所 需 ) 更 多 的 层次 和 神经 元 ， 然 
后 提前 结束 训练 来 避免 过 度 拟 合 〈 以 及 其 他 的 正则 化 技术 ， 特 别 是 





















































dropout， 我 们 将 在 第 11 章 讨论 ) 。 这 被 称 为 “弹力 裤 ? 方 法 。 出 无须 花 费 
时 间 找 刚好 适合 你 的 裤子 ， 随 便 挑 弹力 裤 ， 它 会 缩小 到 合适 的 矿 寸 。 


油 活 函数 


大 多 数 情 况 下 ， 你 可 以 在 隐藏 层 中 使 用 ReLU 激 活 函 数 〈 或 者 其 变 
种 ， 我 们 会 在 第 11 章 看 到 ) 。 它 比 其 他 激活 函数 要 快 一 些 ， 因 为 梯度 下 
降 对 于 大 输入 值 没 有 上 限 ， 会 导致 它 无 法 终止 (与 逻辑 函数 或 者 双 曲 正 
切 函 数 刚好 相反 ， 它 们 会 在 1 处 饱和 )〉。 


对 于 输出 层 ，softmax 激 活 函 数 对 于 分 类 任务 〈 如 果 分 类 是 互 斥 
来 说 是 一 个 很 不 错 的 选择 。 对 于 回归 任务 ， 完 全 可 以 不 使 用 激活 函 





人 工 神经 网 络 的 介绍 就 到 此 为 止 了 。 在 接 下 来 的 章节 中 ， 我 们 会 讨 
论 如 何 训练 深度 网 络 ， 将 训练 过 程 分 布 到 多 个 服务 器 和 GPU 上 。 我 们 还 
会 探索 一 些 其 他 的 神经 网 络 架 构 ， 着 积 神经 网 络 、 复 发 神经 网 络 和 上 自动 
编码 器 。 拍 


[1] Vincent Vanhoucke 在 Udacity.com 上 的 深度 学 习 课程 
(https://goo.gl//Y5TFqz) 。 
[2] 其 他 更 多 的 ANN 架 构 详 见 附录 E。 





练习 


1. 用 原生 人 造 神经 元 绘制 一 个 计算 A@@B〔 代 表 异 或 操作 ) 的 
ANN ( 见 图 10-3) 。 提 示 : A@B= (A 八 B) ( IAAB) 。 
2. 为 什么 通常 更 倾向 用 逻辑 回归 分 类 器 而 不 是 经 典 的 感知 器 ( 比 
如 ， 使 用 感知 器 训练 算法 训练 的 单 层 线 性 立 值 单元 ) ? 如 何 调整 一 个 感 
知 器 ， 让 它 与 逻辑 回归 分 类 器 等 价 ? 
3. 为 什么 逻辑 激活 函数 是 训练 第 一 个 MLP 的 关键 因素 ? 
4. 说 出 3 种 流行 的 激活 函数 ， 你 能 画 出 它们 的 图 形 吗 ? 
5. 假 设 你 有 一 个 MLP 包 含 : 由 一 个 有 10 个 透 传神 经 元 组 成 的 输入 
， 及 一 个 有 50 个 人 工 神 经 元 的 隐藏 层 ， 以 及 一 个 有 3 个 神经 元 的 输出 
。 所 有 的 神经 元 都 用 ReLU 激 活 函 数 。 那 么 : 


输入 矩阵 X 的 形状 是 什么 ? 


漂泊 





隐藏 层 权 重 同 量 Wh， 仿 移 癌 量 bi 的 形状 呢 ? 

-输出 层 权 重 同 量 W。， 仿 移 癌 量 b。 的 形状 呢 ? 

-输出 矩阵 了 的 形状 是 什么 ? 

` 写 出 计算 网 络 输出 矩阵 Y 对 应 X、Whn、bn、Wo 和 bo 的 方程 式 。 

6. 要 区 分 邮件 是 不 是 垃圾 邮件 ， 输 出 层 需 要 多 少 个 神经 元 ?输出 层 


应 该 选择 哪 种 激活 函数 ?如 果 要 处 理 MNIST， 输 出 层 又 需要 多 少 个 神经 
元 ?使 用 哪 种 激活 函数 ? 回答 与 第 2 半 同 样 的 问题 。 让 这 个 网 络 预 测 房 


价 。 





7. 什 么 是 反问 传播 ， 它 是 如 何 工作 的 ?反问 传播 与 反 式 自 动 微分 有 
何 区 别 ? 


8. 你 能 列 出 可 以 被 调整 的 所 有 的 MLP 的 超 参数 吗 ? 如 果 MLP 对 于 数 
据 集 过 度 拟 合 了 ， 你 会 如 何 调整 这 些 超 参数 来 解决 ? 


9. 在 MNIST 数 据 集 上 训练 一 个 深度 MLP， 看 看 预测 准确 度 能 不 能 超 
过 98%。 就 像 第 9 半 结 束 前 的 那个 练习 一 样 ， 和 尝试 添加 一 些 额 外 的 功能 
(保存 检查 点 ， 中 断后 从 检查 点 恢复 ， 添 加 汇总 ， 用 TensorBoard 绘 制 
学 习 曲 线 等 ) 。 


练习 的 答案 见 附录 A。 











第 11 章 ”训练 深度 神经 网 络 


在 第 10 章 我 们 介绍 过 人 工 神 经 网 络 ， 并 且 训 练 了 第 一 个 深度 神经 网 
络 。 但 其 实 它 是 一 个 很 浅 层 的 DNN， 只 有 两 个 隐藏 层 。 当 你 需要 处 理 一 
个 复杂 问题 时 ， 比 如 要 在 高 分 辨 紊 的 图 片 中 检测 数 百 种 形状 的 对 象 ， 该 
怎么 办 呢 ? 你 可 能 需要 训练 一 个 更 深层 的 DNN， 比 如 说 10 层 ， 每 一 层 都 
人 
骨 : 





首先 ， 你 可 能 会 遇 到 很 诡异 的 梯度 消失 问题 〈 或 者 相关 的 梯度 低 
炸 问题 )》， 它 们 会 影 啊 深 度 神经 网 络 ， 从 而 导致 低层 训练 困难 。 


其次， 对 于 这 么 庞大 的 一 个 网 络 ， 训 练 速度 会 非常 慢 。 


-第 三 ， 一 个 有 数 百 万 参数 的 模型 会 很 容易 出 现 过 度 拟 合 训 练 集 的 
风险 。 

在 本 章 ， 我 们 会 回顾 每 一 个 问题 ， 并 且 介 绍 科 学 解雇 方法。 我 们 会 
从 梯度 消失 问题 开始 ， 探 索 这 类 问题 目前 最 流行 的 解决 方案 。 接 着 会 研 
乞 一 下 相 较 平 坦 梯度 下 降 能 够 在 训练 大 模型 时 做 到 明显 提速 的 各 种 优化 
人 


有 了 这 些 工 具 ， 你 就 能 够 训练 比较 深 的 网 络 : 欢迎 来 到 深度 学 习 ! 


梯度 消失 / 焊 炸 问题 


正如 我 们 在 第 10 章 中 讨论 的 ， 反 问 传播 算法 是 从 输出 层 反 向 作用 到 
输入 层 ， 在 过 程 中 传播 误差 梯度 。 一 旦 算法 根据 网 络 的 参数 计算 出 成 本 
半 数 的 梯度 ， 束 会 根据 标 度 下 降 步 骤 利 用 这 些 梯度 来 修正 每 一 个 参数 。 


不 幸 的 是 ， 梯 上 度 经 常会 随 着 算法 进展 到 更 低层 时 变 得 越 来 越 小 。 导 
致 的 结果 十， 梯度 下 降 在 更 低层 网 络 连接 权 值 更 新 方面 基本 没有 改变 ， 
而 且 训 练 不 会 收敛 到 好 的 结果 。 这 称 为 梯度 消失 问题 。 在 一 些 例子 中 会 
发 生 相反 的 现象 : 梯度 会 越 来 越 大 ， 导 致 很 多 层 的 权 值 狗 狂 增 大 ， 使 得 
算法 发 散 。 这 就 是 梯度 爆炸 问题 ， 它 经 常 出 现在 循环 神经 网 络 中 《参见 
第 14 章 ) 。 简 单 来 讲 ， 深 度 神 经 网 络 受 制 于 不 稳定 梯度 ; 不 同 层 可 能 会 
以 完全 不 同 的 速度 学 习 。 


尽管 证 实 这 个 不 笠 的 表现 经 历 了 相当 长 一 段 时 间 〈 这 也 是 深度 神经 
网 络 在 很 长 一 段 时 间 内 几乎 被 遗弃 的 原因 之 一 ) ， 直 到 2010 年 左右 在 梯 
度 消失 问题 的 研究 方面 才 有 了 重大 的 突破 。Xavier Glorot 和 Yoshua 
Bengio 山 在 论文 “Understanding the Difficulty of Training Deep 
Feedforward Neural Networks”(http://goo.g/1rhAef〉 中 提 到 几 个 假设 ， 
包括 流行 的 逻辑 激活 函数 和 当时 最 流行 的 权重 初始 化 技术 的 混合 ， 即 
用 均值 为 0、 方 拳 为 1 的 正 态 分 布 进行 随机 初始 化 。 简 而 言 之 ， 利 用 这 种 
激活 函数 和 初始 化 方式 ， 他 们 发 现 每 一 层 输出 方 兰 都 比 输入 方差 大 很 
多 。 在 这 个 网 络 里 ， 每 层 都 会 出 现 方差 增加 ， 直 到 激活 函数 最 高 层 饱 
和 。 如 果 人 逻辑 函数 的 均值 变 成 0.5， 这 个 现象 就 会 变 得 比较 糟 (均值 为 0 
的 双 曲 正切 函数 比 逻 辑 函 数 在 深层 网 络 中 表现 会 和 好 一 些 ) 。 


观察 逻辑 激活 函数 〈 见 图 11-1) ， 你 会 发 现 当 输入 变 大 〔 正 或 
负 ) ， 函 数 在 0 或 1 饱和 ， 导 数 无 限 靠近 0。 也 就 是 当 反 向 传播 起 作用 
时 ， 实 际 上 并 没有 标 度 通过 网 络 反 向 作 用 ， 同 时 在 反 向 传播 到 顶层 的 过 
程 中 几乎 没有 梯度 被 稀释 ， 所 以 基本 上 没有 给 低层 留 下 什么 。 


























$ 激活 函数 











图 11-1: 逻辑 激活 函数 饱和 
Xavier 初 始 化 和 He 初始 化 


在 Glorot 和 Bengio 的 论文 中 针对 这 个 问题 提出 了 一 个 很 有 效 的 缓和 
办 法 。 我 们 需要 让 信号 在 两 个 方 回 都 正确 流动 : 当 预 测 的 时 候 要 保持 正 
同 ， 在 有 反 辣 传播 梯度 时 保持 反方 同 。 我 们 并 不 希望 信号 消亡 ， 同 样 也 不 
希望 它们 爆炸 或 者 稀释 。 为 了 让 信号 正确 流动 ， 作 者 提出 需要 保持 每 一 
层 的 输入 和 输出 的 方差 一 致 ， 纪 并 且 需 要 在 反 向 流动 过 某 一 层 时 ， 前 后 
的 方 甜 也 要 一 致 〈 如 果 你 对 数学 细节 感 兴趣 可 以 查阅 论文 ) 。 事 实 上 ， 
这 是 很 难保 证 的 ， 除 非 一 层 有 相同 数量 的 输入 和 输出 连接 ， 当 然 他 们 也 
提出 了 一 种 很 好 的 折 中 方案 : 连接 权重 必须 按照 公式 11-1 进 行 随机 初始 
化 ， 其 中 ninpus 和 noutputs 是 权重 被 初始 化 层 的 输入 和 输出 连接 数 〈 也 称 为 
局 入 和 局 出 ) 。 这 种 初始 化 的 方法 称 为 Xavier 初 始 化 (以 作者 的 名 字 命 
名 ) ， 有 时 也 称 为 Glorot 初 始 化 。 


公式 11-1: Xavier 初 始 化 《〈“ 当 使 用 逻辑 激活 函数 时 ) 
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"ww "ww 的 正 态 分 布 ， 或 者 一 个 在 -r 和 + 
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r= “|/- 
之 间 的 标准 分 布 ， 其 中 入 人 we + mw 


当 输 入 连接 数 和 输出 连接 数 大 体 一 致 时 ， 你 可 以 得 到 一 个 简单 的 等 


er i 本 gE ym ER > 
Te EE “inpuls 或 者 pe) 。 我 们 在 第 
10 章 包 用 过 这 个 简易 方法 。 


利用 Xavier 初 始 化 方法 可 以 显著 提高 训练 速度 ， 它 是 众多 带领 深度 
学 习 取 得 现 如 今 成 功 的 方法 之 一 。 近 期 的 一 些 论文 包 为 不 同 的 激活 函数 
提供 了 类 似 的 方法 ， 见 表 11-1。ReLU 激 活 函 数 的 初始 化 方法 〈 以 及 它 
Re 
) 。 





均值 为 Oo 和 标准 差 








表 11-1: 每 种 激活 函数 的 初始 化 参数 


激活 遂 数 雪 飞 分布- 7 正太 分 布 


逻辑 函数 6 | ) 
Fs —— ga | 
\ Ni us ' Nputs \ Nipus ' pm 

3 | 0 | 2 

双 曲 正切 函数 二 辣 ym 

\ Mus Nmputs \ Min + Nipus 

ReLU (及 变种 a pe 
N lie + Nputs Y ji + jupn 


fully_connected〈) 函数 《第 10 章 已 介绍 ) 默认 用 Xavier 初 始 化 (用 
均匀 分 布 ) 。 你 可 以 用 下 面 的 方法 通过 使 用 
variance_scaling_initializer 〈) 函数 将 其 变 成 He 函数 : 





he_init = tf,contrib. layers,.variance_Sscaling_initializer() 


hidden1 = fully_connected(X，n_hidden1，weights_initializer=he_init，Scope="h1”) 





Na 始 化 只 考虑 了 扇 入 ， 没 有 像 Xavier 初 始 化 一 样 取 扇 入 和 扇 
出 的 平均 值 。 这 也 是 variance_scaling_initializer () 函数 里 默认 设置 的 ， 
但 是 可 以 通过 修改 参数 mode="FAN_AVG" 来 调整 。 


非 饱 和 激活 函数 


Glorot 和 Bengio 在 2010 年 的 论文 中 提 到 一 个 观点 ， 梯 度 消 失 / 爆 炸 问 
题 一 部 分 的 原因 是 选 错 了 激活 函数 。 在 那 之 前 很 多 人 一 直 有 这 样 的 假 
设 : 如 果 大 目 然 在 生物 神经 元 里 都 使 用 了 S 激 活 函 数 ， 那 么 这 个 函数 一 
定 是 一 个 绝 佳 的 选择 。 但 结果 却 表明 其 他 的 激活 函数 在 深度 神经 网 络 中 
表现 得 更 好 一 些 ， 特 别 是 在 ReLU 激 活 函 数 中 ， 出 现 这 种 结果 最 主要 的 
原因 是 它 并 不 稀释 正 值 (同时 也 因为 计算 速度 很 快 )。 


然而 ，ReLU 激 活 函 数 并 不 是 完美 的 。 它 会 出 现 dying ”ReLU 问 题 : 
在 训练 过 程 中 ， 一 些 神 经 元 实际 上 已 经 死 了 ， 即 它们 只 输出 0。 在 一 些 
案例 中 ， 你 可 能 会 发 现 你 的 网 络 中 有 一 半 神 经 元 都 死 ， 特 别 是 当 你 用 
了 一 个 比较 大 的 训练 速度 时 。 在 训练 过 程 中 ， 如 果 神 经 元 的 权重 更 新 到 
神经 元 输入 的 总 权重 是 负 值 时 ， 这 个 神经 元 就 会 开始 输出 0。 当 这 种 情 
况 及 生 时 ， 除 非 ReLu 函 数 的 梯度 为 0 并 且 输 入 为 负 ， 人 否则 这 个 神经 元 就 
不 会 再 重新 开始 工作 。 


要 解决 这 个 问题 ， 你 可 能 需要 使 用 ReLU 函 数 的 变种 ， 比 如 leaky 
ReLU《〈 带 浊 漏 线性 整流 函数 ) 。 这 个 函数 定义 为 : LeakyReLU。(z) 
=max (az，Z) 〈 见 图 11-2) 。 超 参数 a 表示 函数 “泄漏 ”程度 : 它 是 函数 
中 z<0 时 的 坡度 ， 一 般 会 设置 为 0.01。 这 个 小 坡度 可 以 保证 leaky ReLU 不 
会 死 ， 它 可 以 进入 一 个 很 长 的 昏迷 期 ,但 最 后 还 是 有 机 会 醒 过 来 。 一 篇 
近期 的 论文 (https:/goo.gVB1xhKn) 刁 中 对 比 了 几 个 ReLU 激 活 函 数 的 
变种 ， 其 中 一 个 结论 就 是 带 泄漏 变种 总 是 优 于 严格 的 ReLU 激 活 函数 。 
实际 上 ， 设 置 a=0.2( 大 泄漏 ) 得 到 的 结果 会 比 g=0.01 (小 泄漏 ) 好 。 同 
时 ， 论 文中 也 评估 了 RReLU“〈 融 泄漏 随机 ReLU) ， 即 在 训练 过 程 中 ao 是 
在 给 定 区 间 里 的 一 个 随机 值 ， 在 测试 过 程 中 国定 在 一 个 平均 值 。 它 的 表 
现 也 很 不 错 ， 可 以 作为 一 个 正则 《降低 了 训练 集 过 度 拟 合 的 风险 ) 。 最 
后 ， 他 们 还 评估 了 PReLU 〈 人 参数 线性 整流 ) ， 其 中 a 在 训练 中 可 以 进行 
学 习 【〔 不 作为 超 函 数 ， 而 是 在 反问 传播 过 程 中 的 参数 ) 。 这 个 函数 在 大 
































的 图 片 数据 集 的 情况 下 会 比 ReLU 效 果 更 好 ， 但 是 在 小 的 数据 集 时 会 有 
训练 集 过 度 拟 合 的 风险 。 


带 汇 尘 线 性 整流 函数 的 激活 函数 














图 11-2: Leaky ReLU〔 带 泄漏 线性 整流 函数 ) 


最 后 ， 在 Djork-ArnéClevert 等 人 ! 电 2015 年 发 表 的 一 篇 论文 
Chttp:/goo.gl/Sdl2P7) 中 提出 了 一 个 新 的 激活 函数 ， 称 为 ELU《〈 加 速 线 
性 单元 ) ， 在 他 们 的 测试 中 ， 它 的 表现 优 于 ReLU 的 所 有 变种 : 训练 时 
间 减 小 ， 神 经 网 络 在 测试 集 的 表现 也 更 好 。 图 11-3 和 公式 11-2 给 出 了 这 
个 函数 的 定义 。 


公式 11-2: ELU 激 活 函 数 


a(exp(z) -1) (z<0) 


z (z 宕 0) 
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ELU 激活 函数 (a=1) 
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图 11-3: ELU 激 活 函 数 
ELU 激 活 函数 和 ReLU 函 数 很 像 ， 只 是 有 几 个 明显 的 不 同 : 


` 当 z<0 时 它 的 值 为 负 ， 从 而 允许 单元 的 平均 输出 接近 0。 这 样 就 可 
以 如 之 前 讨论 的 一 样 ， 缓 和 梯度 消失 问题 。 超 参数 a 是 指 当 z 是 一 个 极 大 
的 负数 时 ，ELU 函 数 接近 的 那个 值 。 通 常 被 设置 为 1， 当 然 如 果 你 需要 
也 可 以 改变 它 ， 与 其 他 超 参 数 的 操作 是 一 样 的 。 

:第 二 ， 对 于 z<0 有 一 个 非 零 的 梯度 ， 这 样 就 可 以 避免 单元 消失 的 问 
题 。 

:第 三 ， 这 个 函数 整体 很 平滑， 包括 在 z=0 附 近 ， 这 样 就 可 以 提高 梯 
度 下 降 ， 因 为 在 z=0 的 左右 两 边 都 没有 抖动 。 

ELU 激 活 函 数 的 一 个 主要 缺陷 是 计算 速度 比 ReLU 和 它 的 变种 慢 
(因为 使 用 了 指数 函数 ) ， 但 是 在 训练 过 程 中 ， 可 以 通过 更 快 的 收敛 速 
度 来 弥补 。 然 而 ， 测 试 中 ，ELU 网 络 时 间 慢 于 ReLU 网 络 。 














钨 那么 在 你 的 深度 神经 网 络 的 隐藏 层 到 底 应 该 使 用 哪 一 种 激活 函 
数 呢 ? 尽 管 你 的 里 程 会 不 一 样 ， 通 常 来 说 ELU 函 数 >leaky ”ReLU 函 数 


《和 它 的 变种 )>ReLU 函 数 >tanh 函 数 > 逻辑 函数 。 如 果 你 更 关心 运行 时 
的 性 能 ， 那 你 可 以 选择 leaky ReLU 函 数 ， 而 不 是 ELU 函 数 。 如 果 你 不 想 
改变 别 的 超 参 数 ， 就 只 使 用 建议 a 的 默认 值 leaky “ReLU 函 数 是 0.01， 
ELU 函 数 是 1) 。 如 果 你 有 多 余 的 时 间 和 计算 能 力 ， 你 可 以 使 用 交叉 验 
证 去 评估 别 的 激活 函数 ， 特 别 是 如 果 你 的 网 络 过 度 拟 合 ， 你 可 以 使 用 

RReLU 函 数 ， 又 或 者 是 针对 大 的 训练 集 使 用 PReLU 函 数 。 


TensorFlow 给 你 提供 了 一 个 elu() 函数 来 构建 神经 网 络 ， 当 调用 
fully_connected〈) 子 数 时 ， 可 以 很 简单 地 设置 activation_fn 参 数 : 





hidden1 = fully_connected(X, n_hiddeni1, activation_fn=tf.nn.elu) 





TensorFlow 没 有 leaky ReLU 函 数 的 预定 义 函 数 ， 但 是 也 可 以 很 简单 
地 定义 为 : 





def leaky_relu(z, name=None): 
return tf.maximum(0.01 * z, z, name=name) 


hidden1 = fully_connected(X, n_hiddeni1, activation fn=leaky_relu) 





批量 归 一 化 


尽管 使 用 了 He 初始 化 加 ELU (或 者 ReLU 的 任 一 种 变种 ) 可 以 很 明 
显 地 在 训练 初期 降低 梯度 消失 /爆炸 问题 ， 但 还 是 不 能 保证 在 训练 过 程 
中 不 会 再 出 现 这 些 问题 。 





在 一 篇 发 表 于 2015 的 论文 https://goo.g/gA4GSP) 四 中 ，Sergey 
Ioffe 和 Christian Szegedy 提 出 了 一 个 叫 作 批量 归 一 化 CBN) 的 技术 ， 用 
它 来 解决 梯度 消失 /爆炸 问题 ， 而 且 每 一 层 的 输入 分 散 问 题 在 训练 过 程 
中 更 普 届 ， 前 层 变 量 的 改变 《〈 称 为 内 部 协 变量 转变 问题 ) 也 是 一 样 。 


该 技术 包括 在 每 一 层 油 活 函数 之 前 在 模型 里 加 一 个 操作 ， 简 单 零 中 
心 化 和 归 一 化 输入 ， 之 后 再 通过 每 层 的 两 个 新 参数 《〈 一 个 为 了 缩放 ， 驳 
一 个 为 了 移动 ) 缩放 和 移动 结果 。 换 句 话 说， 这 个 操作 让 模型 学 会 了 最 
佳 规模 和 每 层 输 入 的 平均 值 。 


为 了 零 中 心 化 和 归 一 化 输入 ， 算 法 需要 评估 输入 的 平均 值 和 标准 方 
差 。 现 在 对 于 小 批量 (因此 得 名 “批量 归 一 化 ”) 是 通过 评估 输入 的 平均 














值 和 标准 方差 来 这 么 做 的 。 整 个 操作 见 公式 11-3。 
公式 11-3: 批量 归 一 化 算法 


] (2) 
] . 一 全 X 
KB m, £ 
yy ld my 
Ss hi) 
mn B= 


本 2 +B 
-Hp 是 经 验 平均 值 ， 评 估 整 个 小 批量 B。 
.Op 是 经 验 标准 方差 ， 评 估 整 个 小 批量 。 
-mp 是 小 批量 的 实例 数 。 

x" 零 中 心 化 和 归 一 化 输入 。 
y 是 层 缩放 参数 。 


B 是 层 移 动 〈 仿 移 ) 参数 。 


.是 一 个 小 的 数字 ， 为 了 避免 除 以 0〈 标 准 化 103) 。 它 被 称 为 平 
滑 项 。 


Z “i 是 BN 操 作 的 输出 : 它 是 输入 的 缩放 和 移动 版 。 


在 测试 期 间 ， 没 有 小 批量 数据 来 计算 经 验 平均 值 和 标准 方差， 所 以 
你 可 简单 地 用 整个 训练 集 的 平均 值 和 标准 方差 来 代替 。 在 训练 过 程 中 可 
以 用 变动 平均 值 有 效 地 计算 出 来 。 所 以 ， 整 体 来 看 ，4 个 参数 是 为 每 一 
-化 层 来 学 习 的 : y 缩放) ，B 偏 移 ) ，R“《〈 平 均值 ) 和 aG《〈 标 
准 方 差 )。 


作者 提出 的 这 个 技术 考虑 了 他 们 实验 过 的 所 有 深度 神经 网 络 。 梯 度 
消失 问题 被 有 效 改善 ， 主 要 原因 是 他 们 使 用 了 饱和 激活 函数 《比如 
tanh) 和 所 辑 油 活 函 数 。 网 络 对 于 权重 初始 化 也 没有 那么 敏感 。 它 们 可 
以 使 用 更 高 的 学 习 速率 ， 从 而 有 效 地 加 快 整个 学 习 过 程 。 值 得 指出 的 
是 ， 他 们 提 到 “在 应 用 到 一 个 先进 图 片 识别 的 模型 时 ， 批 量 归 一 化 达到 
了 相同 的 精度 ， 同 时 还 将 训练 步骤 减少 为 原来 的 14， 以 显著 的 成 绩 击 
败 了 原始 模型 。[.…] 利 用 组 合 的 批量 归 一 化 网 络 ， 我 们 在 ImageNet 上 目 
前 已 经 发 表 过 的 最 佳 结 果 的 基础 上 又 做 了 改进 : 达到 了 4.9%top-5 的 验证 
错误 〈4.8% 的 测试 错误 ) ， 超 过 了 人 类 评估 者 的 精度 。” 最 终 ， 像 一 个 
在 持续 给 予 的 福利 一 样 ， 批 量 归 一 化 同时 还 可 以 进行 正则 化 ， 降 低 其 他 
正则 化 技术 的 需求 《比如 退出 ， 本 和 章 后 面 会 提 到 ) 。 


但 是 ， 批 量 归 一 化 的 确 也 给 模型 增加 了 一 些 复杂 度 《〈 尽 管 因 为 有 第 

一 隐藏 层 而 不 用 考虑 归 一 化 输入 数据 的 需求 ， 但 是 提供 这 个 需求 的 却 是 

批量 归 一 化 ) 。 另 外 ， 还 存在 一 个 运行 时 的 代价 : 神经 网 络 的 预测 速度 

变 慢 ， 原 因 是 每 一 层 有 很 多 其 他 需要 进行 的 计算 。 所 以 如 果 你 需要 快速 

Ce 
现 如 何 。 




















外 和 a 发现 开始 当 梯度 下 降 在 每 一 层 搜索 最 住 缩放 和 偏 移 量 
时 ， 训 练 速度 会 非常 慢 ， 但 是 一 旦 找到 一 个 合适 的 值 ， 训 练 速 度 就 会 迅 
速 提升 。 

用 TensorFlow 来 实现 批量 归 一 化 


TensorFlow 提 供 了 一 个 batch_normalization () 函数 来 中 心 化 和 上 归 一 





化 输入 ， 但 是 你 必须 自己 计算 均值 和 标准 方差 (在 训练 中 基于 一 个 小 批 
量 的 数据 或 者 就 像 刚 才 讨 论 的 用 整个 数据 集 进行 测试 ) ， 然 后 把 它们 作 
为 参数 传 给 这 个 方法 ， 而 且 你 必须 目 己 确定 缩放 和 俩 移 参 数 〈 并 把 它们 
传 给 这 个 方法 ) 。 这 是 可 行 的 ， 但 并 不 一 定 是 最 易 行 的 方式 。 不 过 ， 你 
可 以 用 batch_norm 《〈) 函数 ， 它 提供 了 所 有 的 参数 。 你 可 以 直接 调用 ， 
或 者 告诉 flly_connected〈) 函数 去 调用 它 ， 如 以 下 代码 所 示 : 





import tensorflow as tf 
from tensorflow.contrib.layers import batch_norm 


n_inputs = 28 * 28 


n_hidden1 = 300 
n_hidden2 = 100 
n_outputs = 10 


X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") 


is_ training = tf.placeholder(tf.bool, shape=(), name='is_ training') 
bn_params = { 

'is_training': is_training, 

'decay': 0.99, 

‘Updates collections': None 


hidden1 = fully_connected(X, n_hiddeni1i, scope="hidden1", 
normalizer_fn=batch_norm, normalizer_params=bn_params) 
hidden2 = fully_connected(hiddeni1, n_hidden2, scope="hidden2", 
normalizer_fn=batch_norm, normalizer_params=bn_params) 
logits = fully_connected(hidden2, n_outputs, activation_ fn=None,scope="outputs", 
normalizer_fn=batch_norm, normalizer_params=bn_params) 





一 起 看 一 下 上 述 代 码 。 第 一 行 非常 清楚 ， 只 要 定义 了 is_training 占 
位 符 ， 无 所 谓 是 True 还 是 False。 它 负责 告诉 batch_norm () 函数 是 使 用 
当前 小 批量 的 均值 和 标准 方差 〈 训 练 中 ) ， 还 是 使 用 运行 平均 值 (测试 
中 ) 。 


接着 定义 了 bn_params， 它 是 会 传 给 batch_norm() 函数 的 参数 集 
合 ， 当 然 也 包括 is_training。 算 法 用 到 了 指数 桶 减 来 计算 运行 平均 值 ， 
这 也 是 需要 衰变 参数 的 原因 。 给 一 个 新 值 v， 运 行 平 均值 2 会 通过 公式 


-1 < 一 7 ~ deca' 十 到 头 ( | 一 deca' ) 来 更 新 。 一 个 好 的 衰变 
值 会 非常 接近 1， 比 如 0.9、0.99、0.999 (对 越 大 的 数据 集 和 越 小 的 批 

量 ， 需 要 的 9 越 多 ) 。 最 后 ， 如 果 你 希望 batch_norm () 函数 在 训练 中 
( 即 当 is_training=True 时 ) 一 结束 批量 归 一 化 就 更 新 运行 平均 值 ， 就 需 
要 将 updates_collections 设 置 成 None。 如 果 你 不 设置 这 些 参数 ， 在 默认 情 











况 下 ，TensorFlow 只 将 更 新 运行 平均 值 的 操作 添加 到 必须 运行 的 操作 和 集 


合 中 





最 后 ， 我 们 用 第 10 间 中 提 过 的 方法 ， 通 过 调用 fully_connected () 
函数 来 创建 屋 ， 但 是 这 一 次 我 们 在 调用 激活 函数 前 通过 调用 
batch_norm () 函数 〈 通 过 参数 nb_params) 来 进行 输入 归 一 化 。 


注意 默认 情况 下 ，batch_norm 〈) 只 中 心 化 、 归 一 化 和 对 输入 进行 
偏 移 操 作 ， 但 是 并 不 缩放 〈 即 y 固 定 为 1) 。 这 样 对 没有 激活 函数 或 者 用 
ReLU 激 活 函 数 的 层 是 有 效果 的 ， 但 是 对 于 其 他 的 激活 函数 ， 你 需要 设 
置 "scale"， 即 将 bn_params 设 置 为 True。 


你 可 能 已 经 注意 到 ， 定 义 前 三 层 是 重复 的 ， 因 为 有 几 个 参数 是 相同 
的 。 为 了 避免 一 直 重 复 同 样 的 参数 ， 你 可 以 用 arg_scope 〈) 方法 构造 一 
个 参数 苑 围 : 第 一 个 参数 是 一 个 函数 列表 ， 其 他 参数 会 自动 传 给 这 些 函 
数 。 最 后 三 行 预测 代码 可 以 修改 成 : 














[...] 


with tf,.contrib,.framework.arg_scopel 

[fully_connected], 

normalizer_fn=batch_norm, 

normalizer_params=bn_params ) : 
hidden1 = fully_connected(X, n_hiddeni1i, scope="hidden1") 
hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2") 
logits = fully_connected(hidden2, n_outputs, scope="outputs", 

activation_fn=None) 











在 这 种 小 例子 中 ， 它 的 表现 可 能 没有 以 前 好 ， 但 是 如 果 你 有 10 层 并 
且 商 首 了 激活 函 数 、 初始 化 、 归 一 化 等 ， 你 的 代码 可 读 性 就 会 大 有 改 





构造 阶段 剩 下 的 部 分 和 第 10 章 中 一 致 : 定义 成 本 函数 ;构建 优化 
器 ， 让 和 它 最 小 化 成 本 函数 ;定义 评估 操作 ; 创建 Saver， 等 等 。 


实施 过 程 基 本 一 致 ， 只 有 一 处 不 同 。 无 论 何 时 你 运行 一 个 依赖 于 
batch_norm 层 的 操作 ， 你 都 需要 设置 is_training 占 位 符 为 True 或 者 False: 











with tf.Session() as sess: 
sess.run(init) 


for epoch in range(n_epochs): 


[...] 
for X_batch，y_batch in zip(X_batches，y_batches ) : 
sess.run(training_op, 
feed dict={is training: True, X: XxX batch, y: y_batch}) 
accuracy_score = accuracy.evall( 
feed_ dict={is_ training: False, X: Xx test scaled, y: y_test})) 
print(accuracy_score) 











就 是 这 样 ! 在 这 个 小 例子 中 只 有 两 层 ， 不 像 批 量 归 一 化 有 那么 显著 
的 影响 ， 但 是 对 于 深层 网 络 会 有 非常 明显 的 效果 。 


梯度 部 裁 


一 个 流行 的 减轻 梯度 爆炸 问题 的 技术 是 在 反 向 传播 的 过 程 中 简单 地 
裁剪 梯度 ， 从 而 保证 不 会 超过 阔 值 〈 这 个 对 于 循环 神经 网 络 非常 有 效 ， 
详 见 第 14 章 ) 。 这 种 技术 叫 作 梯度 剪裁 (http:/goo.glJdRDAaf) 图 一 般 
0 

巴 。 


在 TensorFlow 里 ， 优 化 器 的 minimize () 函数 同时 负责 计算 和 应 用 
梯度 ， 所 以 你 必须 先 调用 优化 器 的 compute_gradients 〈) 方法 ， 然 后 调 
用 clip_by_value() 方法 创建 一 个 剪裁 梯度 的 操作 ， 最 后 再 调用 
apply_gradients () 方法 来 应 用 裁剪 后 的 梯度 : 




















threshold = 1.0 

optimizer = tf.train.GradientDescentOptimizer(learning_rate) 

grads_and_vars = optimizer.compute_gradients(Jloss) 

capped_gvs = [(tf.clip by_value(grad, -threshold, threshold), var) 
for grad, var in grads_and_vars] 

training_op = optimizer.apply_gradients(capped_gvs) 





一 般 情 况 下 ， 你 需要 在 每 一 个 训练 步骤 中 都 跑 一 次 training op。 它 
会 计算 梯度 ， 在 -1.0 和 1.0 之 间 剪 裁 ， 然 后 应 用 。 立 值 是 可 以 调整 的 超 参 
数 。 


[11 “Understanding the Difficulty of Training Deep Feedforward Neural 
Networks”，X.Glorot 和 Y Bengio (2010) 。 

[2] 有 一 个 类 似 的 例子 : 如 果 你 把 关 克 风 放 大 器 的 旋钮 调 到 非常 接近 0， 
人 们 就 不 会 听 到 你 的 声音 ， 同 样 如 果 你 把 它 调 到 非常 接近 最 大 值 ， 你 的 
声 首 也 会 饱和 ， 大 家 也 听 不 清 你 在 说 什么 。 现 在 想象 有 一 连 串 这 样 的 放 
大 需 : 它们 需要 设置 好 ， 保 证 在 最 后 的 时 候 你 的 声 普 可 以 清晰 洪 之 地 传 


出 来 。 那 你 的 声音 就 必须 保证 每 经 过 一 个 放大 器 它 的 输出 都 和 输入 有 同 

样 的 振幅 。 

[3] 这 种 简化 方法 其 实 很 早 就 已 经 提出 来 了 一 一 比如 ， 在 1998 年 的 
《Neural Networks: Tricks of the _ Trade》 一 书 中 就 有 提 过 ， 作 者 是 

Genevieve Orr 和 Klaus-Robert Miiller 〈 由 Springer 出 版 ) 。 

[4] “Delving Deep into Rectifiers: Surpassing Human-Level Performance on 

ImageNet Classification”，K.He 等 人 (2015) 。 

[5|] “Empirical Evaluation of Rectified Activations in Convolution 

Network”，B.Xu 等 人 (2015) 。 

[6] “Fast and Accurate Deep Network Learning by Exponential Linear 

Units (ELUs) ”，D.Clevert、T 工 .Unterthiner 和 S.Hochreiter (2015) 。 

[7| “Batch Normalization: Accelerating Deep Network Training by 

Reducing Internal Covariate Shift”，S.Ioffe 和 C.Szegedy (2015) 。 

[8] “On the difficulty of training recurrent neural networks”，R.Pascanu 等 人 
(2013) 。 


重用 预 训练 图 层 


从 头 开始 训练 一 个 非常 庞大 的 DNN 并 不 明智 。 大 多 时 候 你 应 该 试 着 
去 找 一 个 能 处 理 相 似 问 题 的 已 有 的 神经 网 络 ， 然 后 重用 它 的 低层 网 络 ， 
这 叫 作 迁移 学 习 。 这 不 仅 能 极 大 地 提升 训练 速度 ， 也 很 大 程度 地 减少 训 
练 数据 。 

举例 来 说 ， 假 设 你 已 经 有 了 一 个 训练 好 的 DNN 用 来 将 图 片 分 成 100 
个 类 别 ， 包 括 动 物 、 植 物 、 车 辆 和 各 种 各 样 更 多 的 类 别 。 如 果 你 需要 训 


练 一 个 DNN 使 之 能 够 根据 不 同 的 交通 工具 来 分 类 ， 因 为 训练 任务 和 已 有 
的 那个 十 分 类 似 ， 所 以 你 应 该 试 厦 重 用 已 有 的 部 分 网 络 ( 见 图 11-4)。 


们 
fn 可 训练 权重 

















输入 层 
任务 A 的 现 有 DNN ”相似 任务 B 的 新 DNN 








图 11-4: 重用 预 训练 图 层 


四 如果 新 任务 的 给 入 图 片 和 己 有 任务 的 输入 图 片 尺 寸 不 一 怪 ， 你 
就 需要 添加 一 个 预 处 理 过 程 来 使 图 片 太 寸 满足 已 有 任务 的 输入 需求 。 一 
般 来 说 ,迁移 学 习 只 适用 于 新 旧 任 务 的 输入 有 大 相似 的 低层 特征 的 情 
况 。 


重用 TensorFlow 模 型 


如 果 原 有 模型 是 用 TensorFlow 训 练 的 ， 你 可 以 轻松 地 还 原 该 模型 并 
在 新 任务 中 接着 训练 它 : 





[...] # construct the original model 


with tf,.Session() as sess: 
saver .restore(sess, "./my_original model.ckpt") 
[...] # Train it on your new task 








然而 ， 通 常 我 们 只 想 要 重用 原 有 模型 的 一 部 分 (我 们 蕊 上 就 会 讨论 
这 种 状况 ) ， 一 种 简单 的 解决 方案 就 是 配置 Saver 使 之 在 还 原 原 模型 时 
只 还 原 所 有 参数 的 一 个 子 集 。 举 例 来 说 ， 下 面 的 代码 束 只 还 原 了 隐藏 层 
1、 隐 藏 层 2 和 隐藏 层 3: 














[...] # build new model with the same definition as before for hidden layers 1-3 
init = tf.global_variables_initializer() 


reuse_vars = tf.get_collection(tf,.GraphKeys.TRAINABLE_VARIABLES ， 
scope="hidden[123]") 

reuse vars dict = dict([(var.name, var.name) for var in reuse_vars]) 

original saver = tf,.Saver(reuse vars dict) # saver to restore the original model 


new_saver = tf.Saver() # Saver to Save the new model 


with tf,.Session() as sess: 
sess.run(init) 
original_ saver.restore("./my_original model.ckpt") # restore layers 1 to 3 
[...] # train the new model 
new_saver.save("./my_new model.ckpt") # Save the whole model 











首先 我 们 建立 了 新 模型 ， 确 保 它 复制 了 原 有 模型 的 隐藏 层 1 到 隐藏 
层 3。 我 们 同时 创建 了 一 个 节点 来 初始 化 所 有 参数 。 之 后 我 们 获取 到 一 
个 用 "trainable=true" 配 置 〈 默 认 配置 ) 创建 的 参数 列表 ， 并 用 正则 表达 
式 "hidden[123]" 来 做 秘 选 〈 即 : 最 后 得 到 的 就 是 隐藏 层 1 到 隐藏 层 3 的 所 
有 可 训练 参数 ) 。 之 后 我 们 创建 了 一 个 字典 来 存放 每 个 参数 在 原 有 模型 














和 新 模型 里 的 名 字 上 映射 (通常 我 们 会 保持 原名 不 变 ) 。 接 下 来 创建 一 个 
Saver 用 来 还 原 那 些 参数 ， 创 建 另 一 个 Saver 来 存储 整个 新 模型 ， 而 不 是 
只 有 层 1 到 层 3。 之 后 开启 一 个 会 话 ， 并 初始 化 新 模型 的 所 有 参数 ， 然 后 
ee 
子 储 它 。 




















全 -全 务 越 关 似 ， 我 们 就 可 以 重用 越 多 的 层 (从 低层 开始 》。 对 于 
特别 相似 的 任务 ， 我 们 可 以 试 着 将 所 有 隐藏 层 都 保留 ， 只 蔡 换 外 层 。 


重用 其 他 框架 的 模型 


如 果 已 有 模型 是 用 其 他 框 染 训 练 出 来 的 ， 我 们 就 需要 手动 加 载 所 有 
的 权重 《例如 如 果 用 Theano 训 练 的 话 ， 就 用 Theano 代 码 加 载 ) ， 然 后 将 
它们 赋 给 适当 的 参数 。 这 个 过 程 会 变 得 相当 元 长 乏味 。 举 例 来 说 ， 下 面 
的 代码 展示 了 如 何 从 其 他 框架 训练 出 的 模型 来 复制 其 第 一 个 隐藏 层 的 权 
重 和 偏 移 量 。 

















original w 
original_b 


= [...] # Load the weights from the other framework 
= [...] # Load the biases from the other framework 

X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") 
hidden1 = fully_connected(X, n_hiddeni1, scope="hidden1") 

[...] ## Build the rest of the model 


# Get a handle on the variables created by fully_connected() 

with tf.variable_ scope("", default_ name="", reuse=True): # root scope 
hidden1 weights = tf.get variable("hidden1i/weights") 
hidden1 biases = tf.get_ variable("hidden1/biases") 


# Create nodes to assign arbitrary values to the weights and biases 
original weights = tf.placeholder(tf.float32, shape=(n_inputs, n_hidden1)) 
original biases = tf.placeholder(tf.float32, shape=(n_hidden1)) 
assign_hidden1 weights = tf.assign(hiddeni1 weights, original weights) 
assign_hidden1 biases = tf,assign(hidden1_ biases, original biases) 


init = tf.global variables_initializer() 


with tf.Session() as sess: 
sess.run(init) 
sess.run(assign_ hidden1 weights, feed dict={original weights: original w}) 
sess.run(assign_ hiddeni1 biases, feed dict={original biases: original b}) 
[...] # Train the model on your new task 





冻结 低层 





第 一 个 DNN 的 低层 可 能 已 经 学 会 了 检测 图 像 中 的 低级 特征 ， 这 对 于 
两 个 图 像 分 类 任务 都 是 有 用 的 ， 因 此 你 可 以 直接 重用 这 些 图 层 。 训 练 新 
的 DNN 时 ， 通 党 来 讲 “ 冻 结 ?权重 是 一 个 比较 好 的 方法 : 如 果 低 层 权 重 被 
固定 ， 那 么 高 层 的 权重 就 比较 容易 训练 〈 因 为 不 需要 学 习 一 个 运动 的 有 目 
标 〉。 为 了 在 训练 中 冻结 低层 ， 最 简单 的 办 法 残 是 给 优化 占 列 出 要 训 经 
的 变量 列表 ， 除 去 低层 的 变量 : 

















train_vars = tf.,get_ collection(tf.GraphKeys .TRAINABLE_VARIABLES, 
scope="hidden[34]|outputs") 
training_op = optimizer.minimize(loss, var_list=train_vars) 

















第 一 行 是 获得 所 有 在 隐藏 层 3 和 隐藏 层 4 及 输出 层 的 可 训练 变量 。 排 
除了 在 隐藏 层 1 和 隐藏 层 2 的 变量 。 下 一 步 我 们 把 这 个 可 训练 变量 的 受 限 
列表 传 给 优化 絮 的 minimize() 函数 。 层 1 和 层 2 现 在 被 冻结 了 : 它们 在 
训练 过 程 中 不 会 拌 动 (通常 被 称 为 冻结 层 〉。 


缓存 冻结 层 


因为 冻结 层 不 会 变化 ， 所 以 就 有 可 能 将 每 一 个 训练 实例 的 最 高 冻结 
层 的 输出 缓存 起 来 。 由 于 训练 会 轮 询 整个 数据 集 很 多 次 ， 所 以 你 将 获得 
巨大 的 速度 提升 ， 因 为 你 只 需要 在 一 个 训练 实例 中 遍历 一 次 冻结 层 ( 而 
不 是 每 个 全 数据 集 一 次 ) 。 举 个 例子 ， 你 可 以 第 一 次 在 低层 跑 完 整个 训 
练 集 〈 假 设 你 有 足够 的 RAM) : 

















hidden2_outputs = Sess,run(hidden2，feed_dict={X: Xx_train}) 





然后 在 训练 中 ， 你 要 做 的 不 是 构建 批量 的 训练 实例 ， 而 是 批量 构建 
隐藏 层 2 的 输出 ， 并 且 将 它们 喂 给 训练 操作 : 





import numpy as np 


n_epochs = 100 
n_batches = 500 


for epoch in range(n_epochs ) : 
shuffled idx = rnd.permutation(len(hidden2_outputs)) 
hidden2_batches = np.array_split(hidden2 _ outputs[shuffled_idx], n_batches) 
y_batches = np.array_split(y_train[shuffled_ idx]，n_batches ) 
for hidden2 _ batch, y_batch in zip(hidden2 batches, y_batches): 
sess.run(training_op, feed dict={hidden2: hidden2 batch, y: y_batch}) 


ss 


最 后 一 行 运行 的 是 之 前 定义 好 的 训练 操作 (冻结 层 1 和 层 2) ， 然 后 
把 隐藏 屋 2 对 应 批量 目标 〉 的 批量 输出 传 给 它 。 因 为 我 们 把 隐藏 层 2 的 
人 
尽 ) 。 





调整 、 丢 径 或 丛 换 高 层 


原始 模型 的 输出 层 经 常会 被 蔡 换 ， 因 为 对 于 新 的 任务 基本 没有 用 ， 
甚至 没 办 法 提供 正确 的 输出 个 数 。 


同样 ， 原 始 模型 的 高 隐藏 层 没有 低层 用 处 多 ， 因 为 对 于 新 任务 最 有 
效 的 高 级 特性 可 能 和 原始 任务 中 最 有 效 的 那些 特性 差别 很 大 。 你 需要 找 
到 正确 的 层 数 来 重用 。 


首先 尝试 冻结 所 有 的 复制 屋 ， 然 后 训练 你 的 模型 观察 效果 。 接 看 演 
试 解冻 一 到 两 个 项 部 的 隐藏 层 ， 用 反问 传播 进行 调整 来 观察 是 否 有 改 
善 。 训 练 数据 越 多 ， 越 能 解冻 更 多 的 层 。 


如 果 你 一 直 不 能 获得 好 的 效果 ， 而 且 训 练 数 据 很 少 ， 那 就 尝试 丢弃 
最 高 的 一 层 或 多 层 ， 然 后 重新 冻结 剩 下 的 隐藏 展 。 你 可 以 一 直 迭 代 直 到 
找到 正确 的 重用 层 数 。 如 果 你 有 很 多 训练 数据 ， 你 可 以 符 试 谷 换 顶部 的 
隐藏 层 而 不 是 丢弃 它们 ， 甚 至 可 以 添加 一 些 隐藏 层 。 


模型 动物 园 


在 哪里 可 以 找到 一 个 训练 好 的 类 似 神 经 网 络 来 完成 一 个 你 想 要 解决 
的 任务 呢 ?” 首 选 当 然 是 你 目 己 已 有 的 模型 目录 。 这 是 一 个 很 好 的 方式 ， 
可 以 保存 你 所 有 的 模型 ， 方 便 你 整理 ， 也 方便 你 日 后 随时 调用 。 另 一 个 
选择 就 是 在 模型 动物 园 (Model Zoo) 里 搜索 。 很 多 人 针对 各 种 任务 训 
练 了 很 多 机 器 学 习 的 模型 ， 并 且 很 慷慨 地 公开 这 些 预 训练 的 模型 。 























TensorFlow 在 https://github.com/tensorflow/models 上 公开 了 自己 的 模 
型 动物 园 。 特 别 需 要 指出 的 是 ， 这 个 模型 动物 园 包 含 了 先进 图 片 识别 的 
网 络 ， 比 如 VGG、Inception 和 ResNet〈 见 第 13 章 ， 同 时 查看 models/slim 
目录 ) ， 包 括 代 码 、 预 训练 模型 ， 以 及 下 载 流 行 图 片 数据 集 的 工具 。 


另 一 个 流行 的 模型 动物 园 是 Caffe 模 型 动物 园 
Chttps:/goo.gIXI02X3) 。 其 中 也 包括 很 多 计算 机 视觉 模型 〈 比 如 : 





LeNet、AlexNet、ZFNet、GoogLeNet、VGGNet 和 inception ) ， 也 都 在 
各 种 数据 集 ( 比 如 ImageNet、Places Database、CIFAR10 等 ) 上 经 过 训 
练 。Saumitro Dasgupta 写 了 一 个 转换 器 ， 可 以 
在 https://github.com/ethereon/caffe-tensorflow 找 到 。 


无 监督 的 预 训练 


假设 你 要 完成 一 个 没有 太 多 标记 训练 数据 的 复杂 任务 ， 并 且 没 有 找 
到 在 近似 任务 上 训练 过 的 模型 。 不 要 失去 希望 ! 首先 ， 你 肯定 需要 努力 
去 收集 更 多 的 标记 过 的 训练 数据 ， 但 是 如 果 这 个 代价 很 高 或 者 很 难 ， 你 
仍然 可 以 运行 无 监督 的 预 训 练 〈 见 图 11-5) 。 也 就 是 说 ， 如 果 你 有 一 扒 
未 标记 的 训练 数据 ， 那 你 可 以 逐 层 训练 它们 ， 从 最 低层 开始 ， 然 后 回 
上 ， 利 用 一 种 非 监 督 特性 检测 算法 比如 受 限 玻 尔 兹 曼 机 《〈RBM， 见 附 
录 E) 或 者 自动 编码 器 〈 见 第 15 章 ) 。 每 一 层 都 是 基于 提前 训练 好 的 图 
层 〈《 除 去 和 极 冻 结 的 训练 层 ) 的 输出 进行 训练 。 一 旦 所 有 层 都 用 这 个 方式 
训练 过 之 后 ， 你 就 可 以 用 监督 学 习 的 方式 〈 即 反 回 传播 ) 来 微调 网 络 。 


这 是 一 个 元 长 且 无 趣 的 过 程 ， 但 是 通 间 情况 下 效果 都 不 错 ; 事实 
上 ， 正 是 这 个 Geoffrey Hinton 和 他 的 团队 在 2006 使 用 的 技术 让 神经 网 络 
复苏 ， 并 且 取 得 了 深度 学 习 的 成 功 。 直 到 2010 年 ， 无 监督 的 预 训 练 〈 通 
常 使 用 RBM) 都 是 深度 网 络 的 基准 ， 只 有 在 梯度 消失 问题 得 到 缓解 之 
后 ， 用 反 回 传播 来 训练 DNN 才 变 得 越 来 越 普 届 。 然 而 ， 在 面 对 复 杂 任 务 
处 理 、 没 有 相似 模型 可 重用 、 有 极 少 标 记过 的 训练 数据 但 是 却 有 很 多 未 
标记 的 训练 数据 的 情况 下 ， 无 监督 的 预 处 理 〈 现 在 通常 使 用 目 动 编码 器 
而 不 是 RBM) 仍然 是 一 个 非常 不 错 的 选择 。 也 






































无 监督 的 【自动 加 密 ) 监督 的 ( 反 向 传播 
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图 11-5: 无 监督 的 预 训练 
辅助 任务 中 的 预 训练 
最 后 一 个 选择 是 在 辅助 任务 中 训练 第 一 个 神经 网 络 ， 你 可 以 轻松 获 








得 或 者 生成 标记 过 的 训练 数据 ， 然 后 重用 该 网 络 的 低层 来 实现 你 的 实际 
0 
仿 测 器 。 


举 个 例子 ， 如 果 你 想 构 建 一 个 人 脸 识 别 系 统 ， 但 是 你 只 有 每 个 人 的 
几 张 照片 ， 很 明显 没 办 法 训练 一 个 好 的 分 类 器 。 收 集 每 个 人 成 百 上 千张 











照片 根本 不 可 行 。 但 是 ， 你 可 以 在 网 上 收集 很 多 随机 的 人 像 照片 ， 用 它 
们 可 以 训练 第 一 个 神经 网 络 来 检测 两 张 不 同 的 照片 是 否 属于 相同 的 人 。 
这 个 网 络 将 学 习 优质 的 人 脸 特 征 检 测 堪 ， 然 后 重用 这 个 网 络 的 低层 ， 这 
样 你 就 可 以 用 很 少 的 训练 数据 训练 出 一 个 优质 的 人 脸 分 类 融 。 


通 弟 情况 下 ， 收 集 未 标记 训练 示例 会 廉价 很 多 ， 但 是 标记 它们 却 很 
贵 。 针 对 这 种 情况 ， 常 用 的 技术 是 将 所 有 示例 都 标记 为 "好 ”， 然 后 通过 
破坏 好 的 训练 示例 来 生成 新 的 训练 实例 ， 并 把 那些 被 破坏 的 实例 标记 
为 “ 坏 ”。 接 大 你 就 可 以 训练 第 一 个 神经 网 络 来 区 分 好 的 实例 和 坏 的 实 
例 。 举 个 例子 ， 你 可 以 下 载 数 百 万 条 人 句子， 标记 它们 为 “好 ”， 然后 随机 
修改 每 一 句 中 的 一 个 单词 ， 并 标记 这 些 修 改 后 的 句子 为 “ 坏 ”。 如 果 一 个 
神经 网 络 可 以 识别 出 “The dog sleeps” 是 好 ,， “The dog they” 是 坏 ， 那 么 它 
0 
理 任务 。 


男 一 种 方法 是 训练 第 一 个 神经 网 络 ， 让 它 输出 每 一 个 训练 实例 的 得 
分 ， 然 后 利用 成 本 函数 ， 确 保 每 一 个 好 的 实例 的 得 分 都 比 坏 的 实例 的 得 
分 至 少 高 一 些 。 我 们 称 其 为 最 大 边界 学 习 。 


[1 为 一 种 方式 是 针对 你 可 以 很 方便 找到 大 量 标记 的 训练 数据 运行 一 个 
监督 任务 ， 然 后 使 用 之 前 提 到 的 迁移 学 习 。 举 个 例子 ， 如 果 你 想 训练 一 
个 模型 来 识别 出 图 片 中 你 的 朋友 ， 你 可 以 在 网 上 下 载 成 千 上 万 张 脸 ， 然 
后 训练 一 个 分 类 器 来 检测 两 张 脸 是 否 一 致 ， 之 后 用 这 个 分 类 器 来 对 比 新 
图 片 和 每 一 张 你 朋友 的 图 片 。 




















快速 优化 天 


训练 一 个 很 大 的 深度 神经 网 络 可 能 相当 慢 。 到 目前 为 止 ， 我 们 已 经 
了 解 了 四 种 方法 来 提高 训练 速度 〈 并 且 实 现 一 个 更 好 的 解决 方案 ) : 在 
连接 权重 上 应 用 一 个 良好 的 初始 化 策略 ， 使 用 一 个 良好 的 激活 函数 ， 使 
用 批量 归 一 化 ， 以 及 重用 部 分 预 处 理 网 络 。 另 一 种 明显 提高 训练 速度 的 
方法 是 使 用 快速 优化 姻 ， 而 不 是 常规 的 梯度 下 降 优化 右 。 本 节 我 们 会 给 
出 最 流行 的 几 种 : Momentum 〈 动 量 优化 ) ，NAG (Nesterov 梯 度 加 
速 ) ，AdaGrad，RMSProp， 以 及 Adam 优 化 。 


扰乱 警报 ; 本 节 的 结论 是 你 几乎 一 直 需 要 使 用 Adam 优 化 ， 乌 所 以 
如 果 你 不 关心 它 的 工作 原理 ， 那 么 就 只 需要 简单 地 用 AdamOptimizer 巷 
换 GradientDescent Optimizer 然 后 跳 到 下 一 节 就 可 以 了 ! 仅仅 是 这 么 简单 
的 一 个 改变 ， 训 练 速度 就 会 明显 提高 好 几 倍 。 然 而 ， 你 的 确 可 以 调节 
(加 上 学 习 速 率 ) Adam 优 化 的 三 个 超 参 数 ， 默 认 值 一 般 表现 良好 ， 但 
是 如 果 你 需要 对 它们 进行 微调 ， 了 解 每 一 个 值 具体 是 什么 还 是 很 有 帮助 
0 所 以 有 必要 先 看 看 其 
算法 。 


Momentum 优 化 


想象 一 个 保龄球 在 光滑 表面 深 下 一 个 平缓 的 和 斜坡， 最 开始 会 很 慢 ， 
但 是 会 迅速 恢复 动力 ， 直 到 达到 最 终 速 度 〈 假 设 有 一 定 摩 探 力 或 空气 阻 
力 ) 。 这 是 Momentum 优 化 的 一 个 很 简单 的 想法 ， 由 Boris Polyak 在 1964 
年 提出 〈https:/goo.gVFISE8c) 。 包 相 比 之 下 ， 常 规 梯度 下 降 会 沿 着 斜 
坡 采 用 第 规 的 小 步 前 进 的 方式 ， 所 以 会 花 比 较 长 的 时 间 才 能 到 达 底 部 。 


回顾 一 下 之 前 的 内 容 ， 梯 度 下 降 是 直接 从 权重 9 中 减 去 成 本 函数 
J (9) 的 梯度 (YA(0)) 乘 以 学 习 速 率 n。 公 式 是 : 09-nYW70), 它 
不 关心 之 前 的 梯度 是 多 少 。 如 果 本 地 梯度 很 少 ， 它 就 会 走 得 很 慢 。 


Momentum 优 化 关注 以 前 的 梯度 是 多 少 : 每 一 个 欠 代 ， 会 给 
momentum 矢 量 m 加 本 地 梯度 〈 乘 以 学 习 速 率 n) ， 同 时 权重 要 减 去 
momentum 矢 量 〈 见 公式 11-4) 。 换 句 话 说， 梯度 被 当 作 加 速度 来 使 
用 ， 而 不 是 速度 。 为 了 模拟 某 种 摩 探 机 制 并 防止 动量 (momentum ) 增 
长 过 大 ， 该 算法 引入 了 一 个 新 的 超 参数 Pp， 人 简称 为 动量 ， 其 必须 设置 在 


























0《 高 摩 探 ) 和 1《〈 无 摩 迫 ) 之 间 。 一 个 标准 动量 值 为 0.9。 


公式 11-4: Momentum 算 法 


l.m<*—Bm +n V,J(90) 
2.0<*—0-m 


可 以 很 容易 地 验证 当 梯 度 保持 一 个 常量 ， 最 终 速度 〈 即 权重 变化 的 
最 大 值 ) 束 等 于 梯度 乘 以 学 习 速 率 n 乘 以 1 〈1-B) 。 举 个 例子 ， 如 果 
B=0.9， 那 么 最 终 速 度 等 于 10 倍 梯度 乘 以 学 习 速 率 ， 所 以 Momentum 优 化 
最 终 会 比 梯度 下 降 快 10 倍 ! 这 样 就 使 得 Momentum 优 化 从 平台 逃离 比 梯 
度 下 降 快 得 多 。 值 得 一 提 的 是 ， 在 第 4 章 中 我 们 看 到 当 输 入 的 尺寸 很 特 
别 时 ， 成 本 函数 看 起 来 会 像 一 个 细 长 的 碗 〈( 见 图 4-7) 。 梯度 下 降 在 陡 
坡 下 降 得 非常 快 ， 但 是 在 山谷 中 下 降 得 很 慢 。 相 比较 而 言 ，Momentum 
优化 会 以 越 来 越 快 的 速度 滑 癌 谷底 直到 到 达 谷 底 〈( 最 佳 ) 。 在 不 使 用 批 
量 归 一 化 的 深度 神经 网 络 中 ， 高 层 最 终 和 常会 产生 不 同 尺 寸 的 输入 ， 因 此 
使 用 Momentum 优 化 会 很 有 帮助 ， 同 时 还 会 帮助 跨 过 局 部 最 优 。 























全 于 有 动 明 优化 器 可 能 会 超 调 一 点 ， 然 后 返回 ， 再 超 调 ， 来 
回 振荡 多 次 后 ， 最 后 稳定 在 最 小 值 。 这 也 是 系统 中 要 有 一 些 摩擦 的 原因 
之 一 : 它 可 以 帮助 摆脱 振 沪 ， 从 而 加 速 收敛 。 


在 TensorFlow 中 实现 Momentum 优 化 非常 简单 : 只 需 用 
MomentumOptimizer 蔡 换 GradientDescentOptimizer， 然 后 等 着 结果 即 
Hs 








optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate, 
momentum=0.9) 


Momentum 优 化 的 一 个 缺点 是 增加 了 一 个 超 参 数 来 微调 。 然 而 一 般 
情况 下 ， 动 量 值 为 0.9 的 表现 都 比 梯度 下 降 好 。 


Nesterov 梯 度 加 速 


Yurii Nesterov 在 1983 年 提出 了 一 个 Momentum 优 化 的 小 的 变 体 
(https:/goo.gIVV011vD) ， 包 几乎 总 快 过 Vanilla Momentum 优 化 。 
Nesterov Momentum 优 化 ， 或 者 Nesterov 梯 度 加 速 (NAG) ， 是 用 来 衡 
量 成 本 函数 的 梯度 的 ， 不 是 在 本 地 而 是 动量 方 问 稍 同 前 一 点 的 位 置 〈 见 
公式 11-5) 。 与 Vanilla Momentum 优 化 唯一 的 不 同 就 是 用 0+Bm 来 测量 梯 

度 ， 而 不 是 9。 


公式 11-5: Nesterov 梯 度 加 速算 法 


l.m<*—Bm+"n VJ(0+Bm) 
2..0+—0-m 


这 个 小 调整 有 效 是 因为 在 通常 情况 下 ， 动 量 矢量 会 指向 正确 的 方向 
( 即 最 优 方向 ) ， 所 以 在 该 方向 相对 远 的 地 方 使 用 梯度 会 比 在 原 有 地 方 
更 准确 一 些 ， 正 如 图 11-6 所 示 (其 中 V1 表示 在 起 始点 9 用 成 本 函数 测量 
的 梯度 ， V2 表示 在 点 9+Bm 的 梯度 ) 。 正 如 你 所 见 ，Nesterov 更 接近 最 
优 值 。 过 一 阵 之 后 ， 这 些小 的 改进 大 加 在 一 起 ， 于 是 NAG 就 比 常规 
Momentum 优 化 明显 增 速 很 多 。 再 者 ， 注 意 到 当 动 量 把 权重 推 过 山谷 
时 ， V1 会 跨 过 山谷 并 且 推 向 更 远 ， 然 而 V2 却 往 谷底 的 方向 退回 了 一 
些 。 这 有 助 于 降低 振荡 ， 从 而 更 快 收敛。 
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图 11-6: 常规 Momentum 优 化 对 比 Nesterov Momentum 优 化 


对 比 Momentum 优 化 ，NAG 几 乎 总 能 提高 训练 速度 。 要 使 用 NGA， 
在 创建 Momentum Optimizer 时 只 需 简 单 地 设置 use_nesterov=True 即 可 : 





optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate, 
momentum=0.9, use_nesterov=True) 





AdaGrad 


重新 考虑 一 下 细 长 碗 的 问题 : 梯度 下 降 开 始 很 快 就 走 下 最 陡 的 斜 
坡 ， 之 后 慢 慢 移动 到 谷底 。 如 果 算 法 可 以 早点 检测 到 ， 并 且 修 正方 向 往 
全 局 最 优 偏 移 一 些 残 好 了 。 


AdaGrad 算 法 (http://goo.g/4Tyd4ij) 终 通过 沿 着 最 陡 尺 寸 缩小 梯度 
向 量 来 实现 这 一 点 〈 见 公式 11-6) 。 








公式 11-6: AdaGrad 算 法 


的 
2.0 二 0 -TVJC)OVS+E 


第 一 步 将 梯度 的 平方 累积 到 向 量 s 中 “〈 多 表示 矩阵 乘法 ) 。 这 个 向 
量化 表 等 于 给 向 量 s 中 每 一 个 元 素 si 进行 %” 生 + (9780 人 (0) ) 运算 ， 换 
句 话说 ， 对 于 参数 0,， 每 个 s 累 积 成 本 函数 偏 导 数 的 平方 。 如 果 成 本 函 
数 沿 着 第 个 尺寸 陡峭 ， 那 么 si 会 在 每 一 个 兴 代 中 越 来 越 大 。 


第 二 步 与 梯度 下 降 基本 一 致 ， 但 是 有 一 个 最 大 的 区 别 ， 梯 度 向 量 按 
比例 Vs + E 缩 小 (表示 矩阵 除法 ，e 是 避免 除 以 0 的 平滑 项 ， 通 常设 
置 为 10-10) 。 这 个 向 量化 表 等 于 对 于 所 有 参数 0, 进 行 
0 一 0. 一 n9/90./( 0 cs < 运算 (同步 ) , 




















简 而 言 之 ， 这 个 算法 豪 减 了 学 习 速 率 ， 但 是 对 于 陡 度 矿 寸 而 言 ， 它 
比 使 用 较 绥 斜率 的 尺寸 要 快 得 多 。 这 称 为 适应 性 学 习 速率 。 它 有 助 于 将 
所 得 到 的 更 新 更 直接 地 指 网 全 局 最 优 〈 见 图 11-7) 。 必 一 个 附加 的 好 处 
是 只 需 对 学 习 速 率 超 参数 n 做 很 少 的 调整 。 











(维度 陡 岂 程 度 ) 


AdaGrad 


(维度 平坦 程度 ) 
0 





图 11-7: AdaGrad 对 比 梯度 下 降 


AdaGrad 对 于 简单 的 二 次 问题 一 般 表 现 都 不 错 ， 但 是 在 训练 神经 网 
络 时 却 经 和 党 很 早 就 停 清 了 。 学 习 速 率 缩小 得 很 多 ， 在 到 达 全 局 最 优 前 算 
法 就 停止 了 。 所 以 尽管 TensorFlow 有 AdagradOptimizer， 你 也 不 要 用 它 
2 (但 是 ， 对 于 类 似 线性 回归 这 样 的 简单 任务 可 能 是 

效 的 ) 。 


RMSProp 


AdaGrad 降 速 太 快 而 且 没 办 法 收敛 到 全 局 最 优 ，RMSProp 算 法 刁 却 
通过 仅 累 积 最 近 迭 代 中 的 梯度 〈 而 非 从 训练 开始 的 所 有 梯度 ) 解决 了 这 
个 问题 。 它 通过 在 第 一 步 使 用 指数 衰减 来 实现 这 个 操作 〈 见 公式 11- 

7) 。 











公式 11-7: RMSProp 算 法 
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肥 减 紊 B 通 第 设置 为 0.9。 没 错 ， 这 义 是 一 个 新 的 超 参数 ， 但 是 这 个 
默认 值 一 般 表 现 痢 比较 好 ， 所 以 你 基本 不 需要 做 任何 微调 。 


正如 你 所 期 待 的 ，TensorFlow 有 RMSPropOptimizer 类 : 


optimizer = tf.train,.RMSPropOptimizer(learning_rate=learning_rate, 
momentum=0.9, decay=0.9, epsilon=1e-10) 


除去 非常 简单 的 问题 ， 这 个 优化 喜 的 表现 几乎 全 都 优 于 AdaGrad。 
同时 表现 也 基本 都 优 于 Momentum 优 化 和 NAG。 事 实 上， 在 Adam 优 化 
出 现 之 前 ， 它 是 众多 研究 者 所 推荐 的 优化 算法 。 
Adam 优 化 

Adam (https://goo.g/Un8Axa) ， 和 代表 了 自 适 应 力矩 估计 ， 集 合 
了 Momentum 优 化 和 RMSProp 的 想法 : 类似 Momentum 优 化 ， 它 会 跟踪 
过 去 梯度 的 指数 衰减 平均 值 ， 同 时 也 类 似 RMSProp， 它 会 跟踪 过 去 梯度 
平方 的 指数 衰减 平均 值 〈 见 公式 11-8) 。 癌 


公式 11-8: Adam 算 法 
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T 表 示 运 代数 〈 从 1 开始 ) 。 


如 果 只 看 步骤 1、 步 又 2 和 步骤 5， 你 会 发 现 Adam 同 Momentum 优 化 
以 及 RMSProp 非 稼 类似。 唯一 的 不 同 是 步骤 1 计算 的 是 指数 衰减 的 平均 
值 而 不 是 指数 衰减 的 总 和 ， 但 是 除了 常数 因子 以 外 ， 它 们 都 是 相等 的 
(衰减 平均 值 是 1-Bj 倍 的 衰减 总 和 ) 。 步 又 3 和 步骤 4 是 一 种 技术 的 细 
节 : 因为 m 和 s 初 始 化 都 为 0， 它 们 会 在 训练 开始 时 相对 0 有 一 点 偏 移 量 ， 
所 以 这 两 个 步骤 在 训练 开始 时 有 助 于 提高 m 和 s。 


动量 衰减 超 参数 p1 通 常 被 初始 化 为 0.9， 缩 放 衰减 超 参 数 通 常 被 初始 


化 为 0.999。 与 之 前 一 样 ， 平 滑 项 E 通 常会 设置 为 一 个 很 小 的 数字 ， 比 如 
10-8。 这 些 是 TensorFlow 的 AdamoOptimizer 类 的 默认 值 ， 你 可 以 使 用 : 


3. Im -< 一 


4. S 一 














optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate) 








实际 上 ， 因 为 Adam 是 一 个 自 适 应 学 习 速 率 算 法 (与 AdaGrad 以 及 
RMSProp 类 似 ) ， 它 需要 对 学 习 速率 超 参数 n 进 行 微调 。 你 可 以 一 直 使 
用 默认 值 n=0.001， 这 样 使 得 Adam 比 梯度 下 降 更 容易 使 用 。 








入 目前 讨论 过 的 所 有 优化 技术 都 依赖 于 一 阶 仿 导数 
CJacobians) 。 优 化 文献 包含 基于 二 阶 偏 导数 (Hessians〉 的 算法 。 不 
柱 的 是 ， 这 些 算法 都 非常 难 应 用 到 深度 神经 网 络 ， 原 因 是 每 层 输出 都 有 
n*Hessians (其 中 n 是 参数 个 数 ) ， 而 不 是 每 次 只 有 n ”Jacobians。 因 为 
DNN 通 常 有 数 万 个 参数 ， 所 以 二 阶 优化 算法 一 般 不 会 在 内 存 里 适用 ， 而 
且 即 使 运行 ， 计 算 Hessians 也 会 非常 慢 。 


训练 稀 玻 模型 


所 有 提 到 的 优化 算法 都 是 制作 密集 模型 ， 意 味 着 大 部 分 参数 都 是 非 
零 的 。 如 琳 你 需要 在 运行 时 有 一 个 超速 模型 ， 或 者 如 果 你 需要 它 喇 用 更 
少 的 内 存 ， 最 终 你 可 能 青 要 一 个 稀 玻 模型 。 


实现 这 个 目的 的 一 个 小 方法 是 像 往常 一 样 训练 模型 ， 然 后 摆脱 掉 小 
的 权重 (将 其 设置 为 0) 。 


男 一 种 方法 是 在 训练 中 应 用 强 1 正 则 化 ， 因 为 它 可 以 促使 优化 器 尽 
可 能 地 将 权重 归 零 (如 第 4 章 讨论 的 Lasso 回 归 ) 。 


然而 ， 在 某 些 例子 中 这 些 技术 可 能 会 无 效 。 最 后 一 个 方法 是 应 用 对 
偶 平 均 ， 通 党 称 为 FTRL (Fllow The Regularized Leader) ， 这 是 Yurii 
Nesterov (https://goo.g/xSQD4C) 他 提出 的 一 个 技术 。 当 使 用 1 正则 化 
时 ， 这 种 技术 会 导出 一 个 非常 稀疏 的 模型 。TensorFlow 在 
FTRLOptimizer 类 中 实现 了 一 个 名 为 FTRL- 
Proximal (https:/goo.gbxme2B ) 外 的 FTRL 变 体 。 


学 习 速 率 调度 


要 找到 一 个 良好 的 学 习 速 率 会 比较 麻烦 。 如 果 你 把 它 设 置 得 太 高 ， 
训练 可 能 会 产生 分 歧 〈 如 第 4 章 讨论 的 ) 。 如 果 设 置 得 太 低 ， 训 练 可 能 
需要 花 很 长 的 时 间 才 能 收敛 到 最 优 解 。 如 果 你 设置 得 相对 高 一 些 ， 可 能 
最 开始 运行 得 很 快 ， 但 是 最 后 一 直 在 最 优 解 附近 摆动 不 停 下 来 〈 除 非 你 
使 用 适应 性 学 习 速 率 优化 算法 ， 比 如 AdaGrad、RMSProp 或 者 Adam， 但 
即使 这 样 也 需要 时 间 来 稳定 ) 。 如 果 你 的 计算 机 预算 有 限 ， 你 可 能 必须 
在 训练 正确 收敛 之 前 停 下 来 ， 从 而 生成 次 优 解 ( 见 图 11-8)。 
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图 11-8: 不 同学 习 速 率 的 学 习 曲 线 


你 可 能 会 通过 使 用 各 种 学 习 速 率 ， 对 比 学 习 曲 线 在 几 个 数据 集 内 多 
次 训练 网 络 ， 从 而 得 到 一 个 非常 展 好 的 学 习 速 率 。 理 想 的 学 习 速率 学 习 
速度 非常 快 ， 并 且 会 收敛 到 展 好 的 解决 方案 。 

然而 相 比 一 个 固定 的 学 习 速率 ， 你 可 以 做 得 更 好 : 如 果 你 以 一 个 高 
学 习 速 率 开 始 ， 然 后 一 旦 它 停 止 快 速 过 程 就 降低 速率 ， 那 么 你 会 获得 一 
个 比 最 优 固定 学 习 速率 更 快速 的 方案 。 有 很 多 不 同 的 集 略 在 训练 过 程 中 
监督 学 习 速率 。 这 些 策 略称 为 学 习 计划 我 们 在 第 4 章 简 单 介 绍 过 这 个 
概念 ) ， 最 第 用 的 有 : 

预定 分 段 剃 数学 习 速 率 

举 个 例子 ， 最 开始 设置 学 习 速 率 no=0.1， 在 50 个 数据 集 之 后 设置 
no=0.01。 尽 管 这 个 方法 效果 不 错 ， 但 是 需要 搞 清 楚 正 确 的 学 习 速 率 和 
何 时 使 用 。 


性 能 调度 


每 N 个 步骤 进行 测量 来 验证 错误 《比如 早起 停止 ) ， 然 后 当 错 误 停 
止 出 现时 ， 将 学 习 速 紊 降低 到 1/ 入 。 








指数 调度 

将 学 习 速 率 设置 为 达 代 数 t 的 函数 : n(t) =no10-W。 这 个 效果 很 
好 ， 但 是 需要 微调 no 和 r。 学 习 速 率 每 r 步 下 降 10。 

功率 调度 

设置 学 习 速 率 为 0 (t) =no (1+tr) -*。 超 参数 c 通 常设 置 为 1。 这 个 
与 指数 调度 类 似 ， 但 是 学 习 速 率 降 低 得 非常 慢 。 

Andrew Senior 等 人 在 2013 年 的 一 篇 论文 (http:/goo.gVHu6Zyq) Bl 
中 对 比 了 运用 Momentum 优 化 训练 深度 神经 网 络 进行 语音 识别 的 一 些 最 
受 欢迎 的 学 习 计 划 的 表现 。 作 者 总 结 ， 在 这 样 的 设置 下 ， 性 能 调度 和 指 


数 调度 表现 都 很 好 ， 但 是 他 们 更 推荐 指数 调度 ， 因 为 它 更 容易 实现 ， 容 
易 微调 ， 而 且 收 敛 到 最 优 解 的 速度 棚 快 一 些 。 


用 TensorFlow 实 现 学 习 计 划 非 常 直 接 : 














initial learning_rate = 0.1 

decay_steps = 10000 

decay_rate = 1/10 

global_step = tf.Variable(0, trainable=False) 

learning_rate = tf.train.exponential decay(initial learning_rate, global step, 
decay_steps, decay_rate) 

optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9) 

training_op = optimizer.minimize(loss, global step=global_step) 





设置 完 超 参 数值 后 ， 我 们 创建 一 个 不 可 训练 变量 global_step〈 初 始 
化 为 0) 来 跟踪 当前 训练 的 迭代 数 。 然 后 我 们 用 TensorFlow 的 
exponential_decay《) 函数 定义 一 个 指数 衰减 学 习 速 率 〈 其 中 no=0.1， 
r=10000) 。 接 着 ， 我 们 构建 一 个 使 用 该 襄 减 学 习 速 率 的 优化 器 (本 例 
使 用 了 MomentumOptimizer) 。 最 后 ， 我 们 通过 调用 优化 器 的 
minimize〈) 方法 构建 训练 操作 ;因为 我 们 给 它 传 入 了 global_step 变 
量 ， 所 以 它 会 自 增 。 


因为 AdaGrad、RMSProp 和 Adam 优 化 在 训练 中 自动 降低 了 学 习 速 
率 ， 所 以 不 需要 额外 加 入 学 习 计 划 。 对 于 其 他 的 优化 算法 ， 使 用 指数 衰 
减 或 性 能 调度 可 以 很 有 效 地 提高 收敛 速度 。 
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通过 正则 化 避免 过 度 拟 合 
用 四 个 参数 我 可 以 适应 一 头 大 象 ， 用 五 个 参数 我 可 以 让 它 摆动 和 
干 。 


John von Neumann，Enrico Fermi 在 Nature 427 中 引用 


深度 神经 网 络 通 第 有 数 万 个 参数 ， 有 时 甚至 过 亿 。 因 为 有 大 量 参 
数 ， 网 络 具 有 相当 的 自由 度 ， 可 以 使 用 各 种 恶意 复杂 的 数据 集 。 但 是 这 
种 极 大 的 灵活 性 也 意味 着 它 容易 过 度 拟 合 训练 集 。 


拥有 数 亿 的 参数 你 可 以 适应 整个 动物 园 。 本 节 中 我 们 会 给 出 集中 神 
经 网 络 中 最 受 欢 迎 的 正则 化 技术 ， 以 及 用 TensorFlow 怎 样 实现 ， 提前 停 
止 ， 如 和 2 正则 化 、dropout、 最 大 范 数 正则 化 和 数据 扩充 。 


























要 避免 过 度 拟 合 训 练 集 ， 有 一 个 解决 方 末 是 提前 集 止 在 第 4 章 介 
) : 当 验 证 集 的 性 能 开始 下 降 时 停止 训练 。 


用 TensorFlow 实 现 提 前 集 止 的 一 种 方法 是 定期 对 验证 集 进行 模型 评 
佑 比如: 每 50 步 ) ， 同 时 如 果 表 现 好 于 前 一 个 “优胜 者 ”快照 就 将 
此 “优胜 者 ”快照 保存 起 来 。 在 保存 最 后 一 张 “优胜 者 ”快照 的 时 候 计 算 步 
数 ， 当 步 数 达 到 某 些 限制 〈 比 如 : 2000 步 ) 时 停止 训练 。 然 后 恢复 最 后 
一 张 “ 优 胜 者 ”快照 。 


尽管 在 练习 中 提前 停止 表现 得 很 好 ， 但 通常 你 还 是 可 以 通过 结合 其 
他 正则 化 技术 来 获得 更 高 的 性 能 。 


C1 和 《2 正则 化 


绍 过 

















与 第 4 章 中 简单 的 线性 模型 一 样 ， 你 可 以 使 用 t1 和 《2 正则 化 来 约束 
一 个 神经 网 络 的 连接 权重 〈 但 通常 不 是 其 偏差 ) 。 


用 TensorFlow 实 现 的 一 个 方式 是 简单 地 将 适当 的 正则 项 加 在 你 的 成 
本 函数 中 。 举 个 例子 ， 假 设 你 只 有 一 个 隐藏 屋 ， 权 重 为 weight1， 一 个 








输出 屋 ， 权 重 为 weight2， 然 后 你 可 以 这 样 使 用 ti 正则 化 ; 





[...] # construct the neural network 

base_loss = tf.reduce mean(xentropy, name="avg_xentropy") 

reg_losses = tf.reduce sum(tf.abs(weights1)) + tf.reduce_ sum(tf.abs(weights2)) 
loss = tf.add(base loss, scale * reg losses, name="]loss") 








然而 ， 如 果 层 数 多 ， 这 个 方法 就 不 是 很 有 效 。 幸 运 的 是 ， 
TensorFlow 提 供 了 一 个 更 好 的 方案 。 许 多 构建 变量 的 函数 (比如 
get_variable () 和 fully_connected () ) 在 构建 每 一 个 变量 (比如 
weights_regularizer) 时 可 以 接受 一 个 参数 *_regularizer。 你 可 以 传递 任 
何 把 权重 作为 参数 并 且 返 回 相 应 的 正则 化 损失 的 函数 。 函 数 
11_regularizer () 、12_regularizer () 和 11_12_regularizer () 返回 这 些 函 
数 。 下 面 的 代码 把 它们 放 在 一 起 : 








with arg_scope( 
[fully_connected], 
weights_regularizer=tf.contrib.layers.]11 regularizer(scale=0.01)): 
hidden1 = fully_connected(X, n_hidden1i, scope="hidden1") 
hidden2 = fully_connected(hiddeni1, n_hidden2, scope="hidden2") 
logits = fully_connected(hidden2, n_outputs, activation fn=None,scope="out") 





这 个 代码 构建 了 一 个 有 两 个 隐藏 层 和 一 个 输出 层 的 神经 网 络 ， 同 时 
也 在 图 中 构建 了 节点 来 计算 对 应 每 一 层 权重 的 {1 正则 化 损失 。 
TensorFlow 自 动 将 这 些 市 点 加 到 一 个 包含 所 有 正则 化 损失 的 特殊 连接 
中 。 你 只 需要 将 这 些 正则 化 损失 加 a 到 你 整体 的 损失 中 即 可 ， 类 似 这 样 : 











reg_losses = tf.get_ collection(tf.GraphKeys .REGULARIZATION_LOSSES) 
loss = tf.add_n([base_ loss] + reg_losses, name="10oss") 











外 不 要 忘记 将 正则 化 损失 加 到 整体 损失 中 ， 不 然 就 会 被 直接 忽略 


dropout 


最 受 欢迎 的 深度 神经 网 络 正则 化 技术 无 疑 是 dropout。 它 是 由 
G.E.Hinton 在 2012 年 提出 的 (https:/goo.gV/JPMijVnG) 饥 ，Nitish 





Srivastava 等 人 在 之 后 的 一 篇 论文 (http:/goo.gVDNKZol) 乌 中 进行 了 更 
细致 的 解释 ， 并 且 证 明 有 很 高 的 成 功率 : 即使 是 最 先进 的 神经 网 络 在 加 
了 dropout 之 后 也 能 提高 1% 一 2% 的 正确 性 。 这 看 上 去 可 能 不 是 很 多 ， 但 
是 当 一 个 模型 已 经 有 95% 的 正确 性 ， 提 高 2% 束 意味 看 降低 了 将 近 40% 的 
错误 率 〈( 从 5% 的 误差 到 差不多 3%) 。 


这 是 一 个 很 简单 的 算法 : 每 一 个 训练 步骤 ， 每 一 个 神经 元 〈 包 括 输 
入 神经 元 ， 不 包括 输出 神经 元 ) 都 有 一 个 会 被 暂时 “丢弃 ”的 可 能 性 p， 
意思 是 在 这 次 训练 步骤 中 它 会 被 完全 忽略 ， 但 是 到 下 一 步 的 时 候 就 会 被 
油 活 〈 见 图 11-9) 。 超 参数 p 被 称 为 去 奔 率 ， 通 各 设置 为 50%。 在 训练 之 
后 ， 神 经 元 不 会 再 锐 丢 弃 。 原 理 就 是 这 样 〈 除 去 我 们 等 下 要 讲 的 技术 细 
人 


























图 11-9: dropout 正 则 化 
最 开始 这 种 相当 烘 力 的 方法 可 以 起 作用 也 是 非常 令 人 震惊 的 。 如 果 





员工 每 天 早上 通过 扔 硬币 来 决定 去 不 去 上 班 ， 这 样 的 公司 会 越 来 越 好 
吗 ? 好 吧 ， 谁 知道 呢 ， 说 不 定 会 呢 ! 公司 很 明显 是 要 去 适应 它 的 组 织 ， 
而 不 是 依赖 菏 一 个 人 去 填充 咖啡 机 或 者 去 做 其 他 关键 的 任务 ， 所 以 这 些 
专业 知识 必须 分 散 到 好 几 个 人 身上 。 员 工 需要 学 习 和 许多 同事 一 些 协 
作 ， 而 不 仅 是 其 中 几 个 人 。 公 司 的 适应 性 会 越 来 越 好 。 如 果 有 一 个 人 离 

















开 ， 也 不 会 有 太 大 的 影响 。 现 在 还 不 清楚 这 个 想法 对 于 公司 是 不 是 真正 
奏效 ， 但 是 对 于 神经 网 络 的 确 是 有 用 的 。 训 练 有 dropout 的 神经 元 不 能 和 
周围 的 神经 元 共 适 应 ; 它们 必须 让 自己 尽 可 能 有 用 。 它 们 也 不 能 过 分 依 
赖 几 个 输入 神经 元 ; 它们 必须 关注 每 一 个 输入 神经 元 。 它 们 最 后 会 变 得 
对 于 输入 的 轻微 变化 不 那么 敏感 。 最 终 ， 你 会 获得 一 个 更 好 地 泛 化 了 的 
健壮 的 网 络 。 


再 者 ， 理 解 dropout 的 强大 是 因为 注意 到 在 每 一 个 训练 步骤 都 会 创建 
一 个 独立 的 神经 网 络 。 因 为 每 一 个 神经 元 都 可 能 出 现 或 不 出 现 ， 所 以 束 
会 有 总 共 2N 个 可 能 的 网 络 〈 其 中 N 是 可 丢弃 神经 元 的 个 数 ) 。 这 是 一 个 
很 大 的 数字 ， 几 乎 不 可 能 对 一 个 神经 网 络 采样 两 次 。 一 旦 你 已 经 运行 了 
10000 个 训练 步骤 ， 那 你 实际 上 就 已 经 训练 了 10000 个 不 同 的 神经 网 络 
(每 一 个 网 络 都 有 一 个 训练 实例 ) 。 这 些 神经 网 络 很 明显 不 是 独立 的 ， 
因为 它们 共享 很 多 它们 的 权重 ,但 是 它们 还 是 不 同 的 。 所 得 到 的 神经 网 
络 可 以 看 作 是 这 些 较 小 的 神经 网 络 的 平均 集合 。 


这 里 提 到 一 个 很 小 但 是 很 重要 的 技术 细节 。 假 设 p=50， 在 测试 期 
间 ， 一 个 神经 元 将 会 被 连接 到 训练 期 间 输 入 神经 元 平均 〉 的 两 倍 。 为 
了 弥补 这 个 情况 ， 我 们 需要 在 训练 之 后 给 每 一 个 神经 元 的 输入 连接 权重 
乘 以 0.5。 如 果 不 这 样 做 ， 每 一 个 神经 元 惑 会 得 到 一 个 总 输入 信号 ， 大 
概 是 之 前 训练 网 络 的 两 倍 ， 而 且 性 能 不 会 表现 得 特别 好 。 更 通俗 来 讲 ， 
我 们 需要 在 训练 结束 后 给 每 一 个 输入 连接 权重 乘 以 保持 可 能 性 〈1- 
p) 。 或 者 ， 我 们 可 以 在 训练 过 程 中 给 每 一 个 神经 元 的 输出 除 以 保持 可 
能 性 〈 这 些 可 选 方案 不 完全 一 致 ， 但 是 它们 的 效 末 都 一 样 好 ) 。 


要 用 TensorFlow 实 现 dropout， 你 可 以 直接 在 输入 层 和 每 一 个 隐藏 层 
的 输出 调用 dropout 〈) 函数 。 在 训练 中 ， 这 个 函数 会 随机 丢弃 一 些 项 
《把 它们 设置 为 0) ， 并 且 给 剩 下 的 项 除 以 保持 可 能 性 。 在 训练 结束 
人 下 面 是 一 个 针对 三 层 神 经 网 络 应 用 dropout 下 
见 J 例子 : 
































from tensorflow.contrib.layers import dropout 


is_training = tf.placeholder(tf.bool, shape=(), name='is_training') 


keep_prob = 0.5 
Xx drop = dropout(X, keep_prob, is_ training=is_training) 


hidden1 = fully_connected(X_drop, n_hidden1, scope="hidden1") 
hidden1 drop = dropout(hiddeni1, keep_prob, is_ training=is_training) 


hidden2 = fully_connected(hiddeni1 drop, n_hidden2, scope="hidden2") 
hidden2 drop = dropout(hidden2, keep_prob, is_ training=is_training) 


logits = fully_connected(hidden2 drop, n_outputs, activation fn=None, 
scope="outputs") 








人 A 想 在 tensorflow.contrib.layers 调 用 dropout () ， 而 不 是 
tensorflow.nn。 在 不 训练 的 时 候 ， 对 你 想 调用 的 第 一 个 关 掉 (no-op) ， 
但 是 第 二 个 不 关 。 


当然 ， 与 之 前 批量 归 一 化 类 似 ， 你 需要 在 训练 时 设置 is_training 为 
True， 在 测试 时 设置 is_training 为 False。 


如 果 发 现 模 型 过 度 拟 合 ， 你 可 以 提高 dropout 速 率 〈 即 降低 
keep_prob 超 参数 ) 。 相 反 ， 如 果 模 型 不 拟 合 训练 集 ， 你 需要 降低 
dropout 速 率 〈 即 提高 keep_prob 超 参数 ) 。 同 样 针 对 大 层 可 以 帮助 提高 
dropout 速 率 ， 针 对 小 层 可 以 降低 。 


dropout 确 实 收敛 变 慢 ， 但 是 如 果 微 调 合 适 ， 它 通常 都 会 得 到 一 个 更 
好 的 模型 。 所 以 这 个 结果 是 值得 付出 多 一 些 时 间 和 代价 的 。 








Do yoomnect 是 aropout 的 一 个 变 体 它 随机 丢弃 挥 独立 连接 ， 而 
不 是 整个 神经 元 。 通 常情 况 下 ，dropout 表 现 得 更 好 。 
最 大 范 数 正则 化 

另 一 种 神经 网 络 比较 流行 的 正则 化 技术 叫 作 最 大 范 数 正则 化 : 对 每 
一 个 神经 元 ， 包 含 一 个 传 入 连接 权重 w 满 足 Ilwl,<r， 其 中 r 是 最 大 范 数 超 
参数 ，|. 是 上 2 范 数 。 





我 们 通常 这 样 来 满足 这 个 约束 ， 在 每 一 次 训练 步骤 后 计算 lwl， 同 


I 
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时 如 果 需 要 会 剪裁 wl. 


降低 fr 会 增加 正则 化 数目 ， 同 时 帮助 减少 过 度 拟 合 。 最 大 范 数 正则 
化 可 以 同时 帮助 缓解 梯度 消失 /爆炸 问题 (如 果 不 使 用 批量 归 一 化 〉。 


TensorFlow 没 有 提供 现成 的 最 大 范 数 正 则 化 器 ， 但 是 实现 起 来 也 不 
难 。 下 面 的 代码 构建 了 一 个 节点 dip_weights， 该 节点 会 沿 着 第 二 个 轴 前 
减 weights 变 量 ， 从 而 使 每 一 个 行 回 量 的 最 大 范 数 为 1.0: 





threshold = 1.0 
clipped weights = tf,clip_by_norm(weights，cJlLip_norm=threshold，axes=1) 
clip weights = tf.assign(weights, clipped weights) 





你 可 以 按照 下 面 的 方法 在 每 一 个 训练 步骤 之 后 进行 操作 : 





with tf,Sesslion() as sess: 
for epoch in range(n_epochs): 
for X_batch，y_batch in zip(X_batches，y_batches ) : 


sess.run(training_op, feed dict={X: X_batch，y: y_batch}) 
clip_weights.eval() 








如 果 你 不 知道 如 何 获 得 每 一 层 的 weights 变 量 。 你 可 以 像 下 面 这 样 调 
用 一 个 可 变 范围 : 





hidden1 = fully_connected(X，n_hidden1，Sscope="hidden1”) 


with tf.variable_ scope("hiddeni1i", reuse=True): 
weights1 = tf.get_ variable("weights") 





同样 ， 你 也 可 以 调用 根 变 量 范 围 : 





hidden1 = fully_connected(X，n_hidden1，Sscope="hidden1”) 
hidden2 = fully_connected(hidden1，n_hidden2，Sscope="hidden27”) 
[...] 


with tf.variable scope("", default name="", reuse=True): # root scope 
weights1 = tf.get variable("hidden1i/weights") 
weights2 = tf.get variable("hidden2/weights") 








如 果 你 不 知道 某 个 变量 的 名 字 ， 可 以 调用 TensorBoard 去 查询 或 者 
调用 global_variables() 函数 打印 出 所 有 的 变量 名 : 





for variable in tf.global variables(): 
print(variable.name) 








尽管 之 前 的 方法 效果 不 错 ， 但 是 还 是 有 点 烦琐 。 一 个 简洁 的 方法 是 
构建 一 个 max_norm_regularizer () 函数 ， 像 之 前 的 1l1_reg ularizer () 函 
数 一 样 使 用 : 





def max_norm_regularizer(threshold, axes=1, name="max_norm", 
collection="max_norm"): 

def max_norm(weights ) : 
clipped = tf.clip_by_norm(weights, clip_norm=threshold, axes=axes) 
clip weights = tf.assign(weights, clipped, name=name) 
tf.add_to_collection(collection, clip_ weights) 
return None # there is no regularization Joss term 

return max_norm 





这 个 函数 返回 一 个 参数 化 max_norm 〈) 函数 ， 你 可 以 像 其 他 正则 
化 右 一 样 使 用 它 : 





max_norm_reg = max_norm_regularizer(threshold=1.0) 
hidden1 = fully_connected(X，n_hidden1，Scope="hidden1"， 
weights_regularizer=max_norm_reg) 








最 大 范 数 正 则 化 不 需要 将 正则 化 损失 项 加 入 整体 损失 函数 ， 所 以 
max_norm 〈) 方法 返回 None。 但 是 你 仍然 需要 在 每 一 个 训练 步骤 之 后 
返回 clip_weights 操 作 ， 这 样 你 才 可 以 获取 它 的 句柄 。 这 就 是 为 什么 
max_norm () 函数 要 添加 clip_weights 节 点 到 最 大 范 数 剪裁 操作 集合 
里 。 你 需要 调用 这 些 剪 裁 操 作 并 在 每 一 个 训练 步骤 之 后 返回 它们 : 








clip_all weights = tf.get collection("max_norm") 
with tf,.Session() as sess: 
for epoch in range(n_epochs): 
for X_batch, y_batch in zip(X_batches, y_batches): 


sess.run(training_op, feed dict={X: XxX _ batch, y: y_batch}) 
sess.run(clip_all weights) 





代码 整洁 多 了 ， 是 吧 ? 
数据 扩充 


最 后 一 个 正则 化 技术 是 数据 扩充 ， 包 括 从 已 有 实例 构建 新 的 训练 实 
例 ， 人 为 提高 训练 集 大 小 。 因 为 会 减少 过 度 拟 合 ， 所 以 它 是 一 种 正则 化 





技术 。 棘 手 的 是 构建 一 个 切实 可 用 的 训练 实例 ， 理 想 情况 下 ， 人 是 没 办 
法 区 分 哪个 实例 建 好 了 ， 哪 个 没有 建 好 。 而 且 ， 简 单 地 增加 白 噪 声 也 没 
有 用 ;你 进行 的 修改 应 该 是 可 学 习 的 《 白 噪 声 不 可 学 习 ) 。 


举 个 例子 ， 如 采 你 的 模型 要 区 分 蘑 妆 的 照片 ， 你 可 简单 地 移动 、 旋 
转 和 改变 每 张 在 训练 集中 的 照片 的 大 小 ， 同 时 把 这 些 改变 后 的 照片 添加 
进 训练 集中 《〈 见 图 11-10) 。 这 就 迫使 模型 要 兼容 照片 中 蘑菇 的 位 置 、 
方向 和 大 小 。 如 果 你 希望 模型 对 光 的 敏感 度 也 增加 ， 那 你 可 以 类 似 地 生 
成 许多 具有 各 种 对 比 度 的 照片 。 假 设 蕊 菇 是 对 称 的 ， 你 也 可 以 水 平 翻转 
照片 。 通 过 混合 各 种 变换 ， 你 可 以 很 快 地 增加 你 的 训练 集 。 








图 11-10: 用 现 有 实例 来 生成 新 的 训练 实例 


一 般 偏向 在 训练 过 程 中 快速 生成 训练 实例 ， 而 不 是 浪费 存储 空间 和 
网 络 带 宽 。TensorFlow 提 供 了 多 种 图 片 处 理 操作 ， 比 如 转 置 〈( 偏 移 ) 、 
旋转 、 调 整 大 小 、 翻 转 和 裁剪 ， 同 时 还 有 调整 亮度 、 对 比 度 、 饱 和 度 和 
色调 〈 详 见 API 文 要 ) 。 这 样 就 可 以 轻松 地 实现 图 像 数 据 集 的 数据 扩 





py 


全 另 有 种 训练 深度 神经 网 络 的 有 效 技术 是 添加 跳 过 连接 〈 跳 过 
连接 就 是 把 层 输入 加 到 高 层 的 输出 上 ) 。 我 们 会 在 第 13 章 讨论 到 深度 残 
留 网 络 时 再 展开 讨论 。 


[1| “Improving neural networks by preventing co-adaptation of feature 
detectors”，G.Hinton 等 人 (2012) 。 

[Dj “Dropout: A _ Simple Way to Prevent Neural Networks from 
Overfitting”，N.Srivastava 等 人 (2014) 。 


实用 指南 


在 这 一 革 里 ， 我 们 介绍 了 很 多 技术 ， 你 可 能 会 搞 不 清 到 感应 该 用 哪 
一 个 。 表 11-2 中 的 配置 在 大 多 数 情 况 下 都 是 有 用 的 。 


表 11-2: 默认 DNN 配 置 


Initialization He 1mitialization 
Activation function ELU 
Normalization Batch Normalization 
Regularization dropout 
Optimizer Adam 
Learning rate schedule None 
当然 ， 如 果 能 够 找到 解决 类 似 问 题 的 方法 ， 你 应 该 尝试 重用 部 分 预 


训练 的 神经 网 络 。 

这 个 默认 配置 可 能 需要 调整 : 

:如果 你 找 不 到 恨 好 的 学 习 速率 〈 之 前 收敛 太 慢 ， 所 以 你 想 提 高 训 
练 速率 ， 现 在 收敛 变 快 了 ， 但 是 网 络 正确 性 却 是 次 优 的 ) ， 那 你 可 以 党 
试 添 加 一 个 类 似 指数 桶 减 的 学 习 计划 。 

如果 你 的 训练 集 有 点 小 ， 你 可 以 使 用 数据 扩 元 。 








-如 果 你 需要 一 个 稀疏 模型 ， 你 可 以 在 混合 中 加 一 些 妈 1 正则 化 (并 
且 在 训练 之 后 选择 权重 为 0) 。 如 宁 你 想 要 再 黎 足 一 些 的 模型 ， 你 可 以 
尝试 用 FTRL 代 替 Adam 优 化 ， 并 且 搭 配 t1 正 则 化 。 

如果 你 在 运行 时 主要 一 个 快速 内 电 模 型 ， 你 可 能 需要 丢弃 批量 归 


一 化 ， 同 时 可 能 需要 用 leaky ReLU 代 珍 ELU 激 活 函 数 。 有 一 个 稀 琉 模型 
可 能 也 会 有 帮助 。 

















有 了 这 些 准 则 ， 你 就 可 以 开始 训练 一 个 深度 网 络 了 一 一 好 吧 ， 如 果 
你 很 有 耐心 ， 那 束 对 了 ! 如 果 你 只 有 一 台 设 备 ， 你 可 能 需要 等 上 几 天 其 
至 几 个 月 才能 完成 训练 。 在 下 一 章 ， 我 们 会 讨论 怎么 使 用 分 布 式 
TensorFlow 来 在 许多 服务 器 和 GPU 上 训练 和 运行 模型 。 


练习 


1. 只 要 使 用 He 初始 化 随机 进行 选择 ， 就 可 以 将 所 有 权重 初始 化 为 相 
同 的 值 吗 ? 


2. 将 偏 移 项 初始 化 为 0 可 以 吗 ? 
3. 给 出 ELU 相 比 ReLU 的 3 个 优点 。 


4. 在 什么 情况 下 你 会 依次 使 用 下 列 这 些 激 活 函 数 : ELU、leaky 
ReLU (以 及 它 的 变 体 ) 、ReLU、tanh、 逻 辑 激活 函数 和 softmax? 


5. 使 用 Momentum ”Optimizer 时 ， 如 果 你 将 动量 超 参 数 设 置 的 离 1 特 
别 近 《比如 0.99999) ， 那 么 会 发 生 什么 ? 


6. 给 出 三 种 沟通 稀 蔗 模型 的 方法 。 


7.dropout 会 减 慢 训练 速度 吗 ? 是否 减 慢 推理 〈( 即 对 新 实例 进行 预 
测 ) ? 





8. 深 度 学 习 。 
a. 用 每 100 个 神经 元 5 个 隐藏 屋 ，He 初 始 化 和 ELU 激 活 函 数 构 建 一 个 
DNN。 


b. 用 Adam 优 化 和 提前 停止 ， 尝 试 在 MNIST 上 进行 训练 ， 但 只 能 在 
数字 0 一 4 之 间 ， 因 为 在 下 一 个 练习 中 我 们 会 用 迁移 学 习 来 对 5 一 9 进行 训 
练 。 你 需要 一 个 有 5 个 神经 元 的 softmax 输 出 层 ， 而 且 要 一 直 保 持 定 期 保 
存 检查 点 ， 然 后 要 保存 最 后 的 模型 以 便 之 后 重用 。 


c. 用 交叉 验证 调整 超 参 数 ， 观 穴 你 可 以 实现 的 精度 。 


d. 尝 试 添加 批量 归 一 化 来 对 比 学 习 曲 线 ， 是 否 比 之 前 收敛 得 快 ? 是 
否 构建 了 一 个 更 好 的 模型 ? 


否 用 
口 有 a 








9. 迁 移 学 习 。 


a. 重 用 预 训练 的 隐藏 层 和 之 前 的 模型 构建 一 个 新 的 DNN， 冻 结 它 ， 
同时 用 新 的 DNN 代 蔡 softmax 输 出 层 。 


b. 对 数字 5 一 9 训练 这 个 新 的 DNN， 一 个 数字 只 用 100 张 图 ， 会 花 多 
长 时 间 。 除 去 这 个 小 个 数 样 本 ， 你 还 可 以 达到 更 高 的 精度 吗 ? 


c. 尝 试 缓冲 冻结 层 ， 重 新 训练 模型 ， 这 次 会 花 多 长 时 间 ? 
d. 只 用 4 个 隐藏 层 再 试 一 次 ， 能 获得 更 高 的 精度 吗 ? 
e. 将 最 上 面 的 两 个 隐藏 层 解冻 继续 训练 : 你 能 让 模型 表现 得 更 好 


吗 ? 





10. 在 辅助 任务 上 进行 预 训练 。 


a. 在 这 个 练习 中 ， 你 要 构建 一 个 DNN， 对 比 两 个 MNIST 数 字 图 片 并 
预测 它们 是 否 代表 同一 个 数字 。 然 后 ， 重 用 这 个 网 络 的 低层 ， 用 很 少 的 
训练 数据 来 训练 一 个 MNIST 分 类 器 。 首 先 构建 两 个 DNN (我们 称 之 为 
DNN A 和 DNN B) ， 它 们 都 和 你 之 前 构建 的 DNN 一 样 ， 只 是 没有 输出 
层 : 每 个 DNN 要 保证 每 100 个 神经 元 有 5 个 隐藏 层 ，He 初 始 化 和 ELU 激 
活 。 接 着 ， 在 两 个 DNN 的 顶部 添加 一 个 输出 层 。 你 要 调用 TensorFlow 的 
concat () 函数 ， 并 有 晶 设 置 axis=1， 用 函数 将 两 个 DNN 沿 着 水 平 轴 连 接 
起 来 ， 然 后 将 结果 传 给 输出 层 。 这 个 输出 层 应 包含 一 个 使 用 逻辑 激活 函 
数 的 单个 神经 元 。 


b. 将 MNIST 训 练 集 一 分 为 二 : 分 组 1 包 55000 张 图 片 ， 分 组 2 包含 
5000 张 图 片 。 构 建 一 个 生成 训练 批量 的 函数 ， 其 中 每 个 实例 都 是 从 分 组 
1 中 选择 的 一 对 MNIST 图 片 。 一 半 的 训练 实例 应 该 是 属于 同一 类 型 的 图 
片 对 ， 而 另 一 半 属 于 不 同类 型 。 对 每 一 个 图 片 对 ， 如 果 来 自 同一 类 型 则 
训练 标签 标记 为 0， 如 果 来 目 不 同类 型 则 标记 为 1。 

c. 在 这 个 训练 集 上 训练 DNN。 对 每 一 个 图 片 对 ， 你 都 可 以 同时 将 第 
一 张 图 片 传 给 DNN A， 第 二 张 图 片 传 给 DNN B。 上 整个 网 络 慢 慢 就 可 以 
分 辨 出 两 张 图 片 是 否 属于 同一 种 类 型 。 


d. 现 在 通过 重用 和 冻结 DNN 的 隐藏 屋 ， 同 时 在 10 个 神经 元 上 添加 一 




















个 softmax 输 出 的 方法 构建 一 个 新 的 DNN。 在 分 组 2 上 训练 这 个 网 络 ， 看 
看 在 每 一 类 只 有 500 张 图 片 的 情况 下 能 不 能 获得 比较 高 的 性 能 。 


练习 的 参考 答案 详 见 附录 A。 


第 12 章 ”路 设备 和 服务 器 的 分 布 式 TensorFlow 


第 11 章 讨论 了 不 少 可 以 有 效 提高 训练 速度 的 技术 : 更 好 的 权重 初始 
化 、 批 量 归 一 化 、 复 杂 的 优化 器 等 。 然 而 ， 即 使 使 用 所 有 这 些 技术 ， 在 
人 
恒 的 时 间 。 


在 这 一 章 里 ， 我 们 会 看 到 如 何 用 TensorFlow 在 多 运算 资源 《CPU 和 
GPU) 中 进行 分 布 式 计 算 ， 并 且 同 步 运行 〈 见 图 12-1) 。 首 先 会 先 在 一 
台 机 器 上 跨 多 个 运算 资源 进行 分 布 式 计算 ， 然 后 在 跨 机 器 跨 多 个 运算 次 
源 进行 分 布 式 计算 。 











GPU #0 











图 12-1: 并 行 跨 多 个 运算 资源 执行 TensorFlow 图 


TensorFlow 对 于 分 布 式 运算 的 文 持 是 它 相 较 其 他 神经 网 络 框 架 一 个 
主要 的 亮点 。 可 以 全 权 控 制 如 何在 设备 和 服务 器 之 间 分 割 〈 或 复制 ) 计 








算 图 ， 并 允许 你 以 灵活 的 方式 进行 并 行 和 同步 操作 ， 从 而 允许 你 在 各 种 
并 行 化 操作 中 任意 选择 。 


我 们 会 了 解 一 下 并 行 执行 和 训练 神经 网 络 的 主流 方法 。 相 比较 花 几 
周 时 间 等 一 个 训练 算法 结束 ， 你 可 能 只 需要 等 几 个 小 时 。 这 样 不 仅 可 以 
节省 大 量 时 间 ， 还 意味 着 你 可 以 更 轻松 地 对 各 种 模型 进行 实验 ， 同 时 还 
能 频繁 用 新 数据 来 重新 训练 你 的 模型 。 


其 他 比较 好 的 并 行 化 例子 包括 在 微调 模型 时 探索 更 大 的 超 参 数 空 
间 ， 并 有 效 地 运行 大 型 神经 网 络 集合 体 。 


但 是 在 跑 之 前 我 们 必须 先 学 会 走 。 我 们 先 从 在 一 个 单独 机 器 上 跨 几 
个 GPU 并 行 简单 图 开始 。 











一 台 机 各 上 的 多 个 运算 资源 


通常 可 以 通过 将 GPU 卡 添加 到 单个 机 器 中 来 获得 主要 的 性 能 提升 。 
事实 上 ， 在 很 多 情况 下 ， 这 束 足 够 了 ; 你 根本 不 需要 使 用 多 人 台 机 器 。 举 
个 例子 ， 你 通 利 可 以 使 用 单个 机 器 上 的 8 个 GPU 来 训练 神经 网 络 ， 而 不 
是 在 多 人 台 机 器 上 使 用 16 个 GPU“《 由 于 多 机 器 设置 中 的 网 络 通信 上 所 造成 的 
额外 延迟 ) 。 


本 节 将 介绍 如 何 设置 环境 ， 以 便 TensorFlow 可 以 在 一 台 机 器 上 使 用 
多 个 GPU 卡 。 然 后 我 们 会 看 看 如 何在 可 用 设备 之 间 分 配 操作 且 并 行 执 
1 
安装 

为 了 让 TensorFlow 可 以 在 多 GPU 卡 上 运行 ， 你 首先 需要 确保 自己 的 
GPU 卡 有 NVidia 计 算 功 能 (高 于 或 等 于 3.0 版 本 ) 。 包 括 Nvidia 的 Titan、 


Titan X、K20 和 K40 卡 《〈 如 果 你 有 其 他 的 卡 ， 你 可 以 
在 https://developer.nvidia.com/cuda-gpus 上 查询 它 的 兼容 性 )。 




















人 in 果 你 没有 GPU 卡 ， 你 可 以 用 有 GPU 功能 的 托管 服务 ， 比 如 
Amazon AWS。}iga Avsec 的 帮助 文档 〈http:/goo.gl/kbge5b) 上 有 如 何 
在 一 个 AWS GPU 实例 上 用 Python 3.5 创 建 一 个 TensorFlow 0.9 的 详细 介 
绍 。 更 新 到 最 新 的 TensorFlow 版 本 应 该 也 不 难 。Google 也 发 布 了 一 个 名 
为 Cloud Machine Learning (https:/cloud.google.com/ml) 的 云 服务 来 运 
行 TensorFlow 图 。 在 2016 年 5 月 ， 他 们 宣布 他 们 的 平台 上 包含 装 有 张 量 
处 理 单元 (CTPU) 的 服务 器 ， 该 处 理 器 是 专门 为 机 器 学 习 定 制 的 ， 比 针 
对 多 ML 任务 的 GPU 处 理 速度 快 得 多 。 当 然 ， 另 一 个 选择 就 是 自己 买 
GPU 卡 。Tim Dettmers 写 了 一 篇 很 棒 的 博客 〈https:/goo.gl/pCtSAn) 来 
帮 你 选择 ， 而 且 他 一 直 在 更 新 博客 。 


必须 要 下 载 和 安装 CUDA 和 cuDNN 库 的 可 用 版 本 〈 如 果 你 用 二 进 制 
安装 TensorFlow 1.0.0 版 本 ， 那 么 CUDA 8.0，cuDNN 5.1) ， 然 后 设置 一 
些 环境 变量 让 TensorFlow 知 道 去 哪 找 CUDA 和 cuDNN。 详 细 的 安装 文档 
可 能 经 常会 更 新 ， 所 以 最 好 遵循 TensorFlow 官 网 上 的 介绍 。 


Nvidia 的 计算 统一 设备 架构 库 (CUDA) 人 允许 开发 人 员 使 用 支持 





CUDA 的 GPU 进行 各 种 计算 〈 不 仅仅 是 图 形 加 速 ) 。Nvidia 的 CUDA 深 
度 神经 网 络 库 (cuDNN) 是 一 个 GPU 加 速 的 原始 图 形 库 ， 用 于 DNN。 
它 提 供 了 常规 DNN 计 算 的 优化 实现 ， 例 如 激活 层 、 归 一 化 、 前 癌 和 后 问 
卷 积 ， 以 及 池 化 〈 见 第 13 章 ) 。 它 是 Nvidia 深 度 学 习 SDK 的 一 部 分 (请 
注意 ， 你 需要 创建 一 个 Nvidia 开发 者 账户 才能 下 载 它 ) TensorFlow 使 用 
CUDA 和 cuDNN 来 控制 GPU 卡 并 加 速 计 算 〈 见 图 12-2) 。 


TensorFlow 





GPU 加 GPU 林 








图 12-2: TensorFlow 使 用 CUDA 和 cuDNN 控 制 GPU 和 加 速 DNN 


可 以 用 nvidia-smi 命 令 来 检查 CUDA 是 否 安装 成 功 。 它 会 列 出 可 用 的 
GPU 卡 ， 以 及 每 张 卡 上 运行 的 进程 : 





$ nvidia-smi 
J Sep 16 09:50:03 2016 


| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | 
| Fan Temp Perf Pwr: See ln Usage | GPU-Util Compute M. | 
| 


| © GRID K520 off | 0000:00:03.0 | N/A | 
| N/A 27C P8 17W / 125W | 11iMiB / 4095MiB | 0% Default | 


| Processes: GPU Memory | 


| GPU PID Type Process name Usage | 








最 后 ， 必 须 7 CPUs rlows 如 果 用 virtualenv 创 建 了 一 
个 独立 的 环境 ， 首 先 需要 激活 它 





$ cd $ML_PATH # Your ML working directory (e.g., $HOME/ml) 
$ source env/bin/activate 





然后 安装 适当 版 本 的 支持 GPU 的 TensorFlow: 





$ pip3 install --upgrade tensorflow-gpu 





现在 可 以 打开 一 个 Python shell， 检 查 TensorFlow 通 过 导入 
TensorFlow 并 创建 会 话 来 正确 检测 和 使 用 CUDA 和 cuDNN: 





>>> import tensorflow as tf 

I [...]/dso_loader.cc:108] successfully opened CUDA library libcublas.so locally 
I [...]/dso_loader.cc:108] successfully opened CUDA library libcudnn.so locally 
I [...]/dso_loader.cc:108] successfully opened CUDA library libcufft.so locally 
I [...]/dso_loader.cc:108] successfully opened CUDA library libcuda.so.1 locally 
I [...]/dso_loader.cc:108] successfully opened CUDA library libcurand.so locally 
>>> sess = tf.Session() 

[...] 


I [...]/gpu_init.cc:102] Found device 0 with properties : 

name: GRID K520 

major: 3 minor: © memoryClockRate (GHz) 0.797 

pciBusID 0000:00:03.0 

Total memory: 4.00GiB 

Free memory: 3.95GiB 

I [...]/gpu_init.cc:126] DMA: 0 

I [...]/gpu_init.cc:136] 0: YY 

I [...]/gpu_device.cc:839] Creating TensorFlow device 

(/gpu:0) -> (device: 90, name: GRID K520, pci bus id: 0000:00:03.0) 





看 起 来 不 错 ! TensorFlow 检 测 到 CUDA 库 和 cuDNN 库 ， 并 且 用 
CUDA 库 检测 GPU 卡 〈 这 个 例子 中 是 Nvidia Grid K520 卡 ) 


管理 GPU RAM 


默认 情况 下 TensorFlow 在 第 一 次 运行 图 形 时 会 自动 抓 取 所 有 可 用 
GPU 中 的 所 有 RAM， 因 此 当 第 一 个 TensorFlow 程 序 在 运行 时 ， 无 法 启动 





第 二 个 。 如 果 和 尝试 ， 将 出 现 以 下 错误 : 





E [...]/cuda driver.cc:965] failed to allocate 3.66G (3928915968 bytes) from 
device: CUDA ERROR_OUT_OF_MEMORY 








一 个 解决 方案 是 在 不 同 的 GPU 卡 上 运行 每 一 个 程序 。 为 了 完成 这 个 
任务 ， 最 简单 的 方法 是 设置 CUDA_VISIBLE_ DEVICES 环 境 变量 ， 这 样 
可 以 对 每 一 个 进程 只 可 见 可 用 的 GPU 卡 。 举 个 例子 ， 可 以 用 下 面 的 方法 
来 启动 两 个 程序 : 








$ CUDA_VISIBLE_ DEVICES=0,1 python3 program 1.py 
# and in another terminal: 
$ CUDA_VISIBLE_ DEVICES=3,2 python3 program 2.py 





程序 1 将 只 能 看 到 GPU 卡 0 和 1 (分 别 编 号 为 0Oo 和 1) ， 程 序 2 将 只 能 看 
到 GPU 卡 2 和 3 (分 别 编号 为 1 和 0) 。 一 切 都 运行 良好 〈 见 图 12-3) 。 











GPU 如 GPU 到 6PU 杞 6PU 相 








图 12-3: 每 个 程序 本 身 都 有 两 个 GPU 


男 一 个 方案 束 是 告诉 TensorFlow 只 占 一 小 部 分 内 存 。 比 如 ， 为 了 使 
TensorFlow 只 占 每 个 GPU 内 存 的 40%， 必 须 创 建 ConfigProto 对 象 ， 将 
gpu_options.per_process_gpu_memory_fraction 选 项 设置 为 0.4。 





config = tf.ConfigProto() 
config.gpu_options.per_process_ gpu memory_fraction = 0.4 
session = tf.Session(config=config) 











现在 两 个 程序 可 以 用 同 款 GPU 卡 并 行 运 行 〈 但 不 是 3 个 ， 因 为 
3x0.4>1) ， 见 图 12-4。 





[ ] | 
GPU 可 GPU #1 GPU 炉 GPU 权 














图 12-4: 每 一 个 程序 用 4 个 GPU， 但 是 每 个 只 有 40% 的 RAM 


当 两 个 程序 同时 运行 时 ， 如 果 你 运行 nvidia-smi 命 令 ， 你 会 看 到 每 
一 个 进程 大 约 占 每 张 卡 总 RAM 的 40%: 








$ nvidia-smi 
..] 


[ 
+----------------------------------------------------------------------------- 十 
| Processes : GPU Memory | 
| GPU PID Type Process name Usage 

| ee ne ee fe SE fre mT Pe PE OE ee A TET fr Ee et fe ee smid 

| 0 5231 C python 1677MiB | 
| 0 5262 C python 1677MiB | 
| 1 5231 C python 1677MiB | 
| 1 5262 C python 1677MiB | 
[...] 





还 有 一 个 方案 是 让 TensorFlow 只 在 需要 的 时 候 占 用 内 存 。 要 完成 这 
个 任务 ， 必 须 设置 config.gpu_options.allow_growth 为 True。 但 是 
TensorFlow 丰 会 释放 占用 过 的 内 存 ( 避 人 免 内 存 健 片 )， 所 以 过 一 阵子 之 
后 还 是 会 内 存 不 够 。 使 用 此 方案 可 能 更 难保 证 确定 性 行为 ， 因 此 一 般 来 
说 ， 你 可 能 希望 坚持 使 用 之 前 的 某 一 个 方案 。 


现在 你 有 一 个 可 运行 的 支持 GPU 的 TensorFlow 了 。 接 下 来 看 看 如 何 
用 它 ! 





在 设备 上 操作 


TensorFlow 和 白皮书 山 给 出 了 一 个 友好 的 动态 配置 算法 ， 可 以 自动 分 
配 所 有 设备 上 的 操作 ， 同 时 考虑 之 前 图 标 运算 中 所 测量 的 时 间 ， 以 及 评 
估 每 次 操作 输入 和 输出 传 感 占 的 大 小 ， 每 个 设备 上 RAM 的 可 用 情况 ， 
设备 传输 数据 中 的 通信 延 运 ， 来 自用 户 的 提示 和 约束 ， 等 等 。 遗 憾 的 
是 ， 这 个 复杂 的 算法 是 Google 内 部 的 ， 没有 在 开源 版 本 的 TensorFlow 里 
发 布 。 它 没有 发 布 的 原因 似乎 是 ， 在 实践 过 程 中 ， 由 用 户 指 定 的 一 小 套 
配置 规则 实际 比 动态 配置 器 更 能 给 出 有 效 的 配置 。 然 而 ，TensorFlow 团 
队 正 在 努力 改进 动态 配置 ， 也 许 之 后 就 会 发 布 了 。 


在 这 之 前 ，TensorFlow 都 是 依赖 于 简易 配置 右 ， 它 《顾名思义 ) 是 
非常 基本 的 。 


简单 配置 


不 论 何 时 运行 一 张 图 ， 如 果 TensorFlow 需 要 评估 一 个 尚未 配置 在 设 
备 上 的 节点 ， 就 需要 一 个 简易 配置 器 来 存放 它 和 其 他 没有 配置 的 节点 。 
简易 配置 器 需要 闲 守 下 面 几 个 规则 : 


om 那 它 就 
还 留 在 那 台 设 


其 他 的 情况 下 ， 如 果 用 户 指定 了 一 个 节操 到 一 个 设备 (后 面 讲 
解 ) ， 配 置 器 束 配 置 在 那 合 设备 上 。 


.剩余 的 情况 下 ， 默 认为 GPU “0 号 ， 或 者 在 没有 GPU 的 时 候 就 选用 
CPU。 


正如 你 所 见 ， 配 置 操 作 在 可 用 的 设备 上 基本 全 依赖 于 你 个 人 。 如 果 
你 什么 都 不 做 ， 整 个 图 就 会 被 配置 在 默认 设备 上 。 如 宁 需 要 把 节点 固定 
在 设备 上 ， 你 需要 用 device 〈) 方法 创建 一 个 设备 块 。 举 个 例子 ， 下 面 
的 代码 在 CPU 上 固定 变量 a 和 常量 b， 但 是 乘法 节点 c 没 有 固定 在 任何 设 
备 上 ， 所 以 它 会 被 配置 在 默认 设备 上 : 












































with tf.device("/cpu:0"): 
a = tf.Variable(3.0) 
b = tf.constant(4.0) 





Au 0" 设 备 聚 合 了 一 个 多 CPU 系统 的 所 有 CPU。 当 前 没有 什 
么 方法 可 以 固定 节点 到 特定 的 CPU 或 者 只 使 用 所 有 CPU 的 一 部 分 。 


记录 配置 
一 起 看 一 下 简易 配置 器 是 否 遵守 了 刚 定 义 的 配置 约束 。 为 此 ， 可 以 


设置 1og_device_placement 选 项 为 True; 它 会 告诉 插 槽 在 配置 节点 的 时 候 
记录 信 恩 O 比 如 2 








>>> config = tf.ConfigProto() 

>>> Config.1og_device_placement = True 

>>> sess = tf.Session(config=config) 

I [...] creating TensorFlow device (/gpu:0) -> (device: 0，name: GRID K520, 
pci bus id: 0000:00:03.0) 


>>> x.initializer.run(session=sess) 

..] a: /job:localhost/replica:0/task:0/cpu:0 

a/read: /job:localhost/replica:0/task:0/cpu:0 

mul: /job:localhost/replica:0/task:0/gpu:0 

a/Assign: /job:localhost/replica:0/task:0/cpu:0 

b: /job:localhost/replica:0/task:0/cpu:0 

..] a/initial value: /job:localhost/replica:0/task:0/cpu:0 
sess.run(c) 


LE | SY EE 





对 于 Info， 以 I” 开头 的 行 是 日 志 信息 。 当 创建 一 个 会 话 时 ， 
TensorFlow 会 记录 一 条 信息 ， 告 诉 我 们 它 已 经 发 现 了 一 张 GPU 卡 (本 例 
中 使 用 的 Grid K520 卡 )。 然 后 ， 在 我 们 第 一 次 运行 图 时 (当初 始 化 变 
量 a〉， 将 运行 简易 配置 嚣 ， 并 将 每 个 节点 配置 在 其 分 配 的 设备 上 。 与 
预期 一 样 ， 日 志 信 息 显 示 出 所 有 的 节点 都 配置 在 "Vcpu: 0" 上 ， 除 乘法 市 
点 之 外 ， 它 们 最 后 放 在 默认 设备 "/gpu: 0" 上 “现在 可 以 先 忽 略 掉 前 
级 /job: localhost/replica: 0/task: 0; 之 后 再 讨论 ) 。 注 意 ， 在 第 二 次 运 
行 图 时 (计算 c) 时 ， 没 有 使 用 配置 如 ， 是 因为 所 有 TensorFlow 需 要 计 
算 c 的 节点 都 配置 过 了 。 


动态 配置 方法 
当 创 建 一 个 设备 块 时 ， 可 以 指定 一 个 功能 而 不 是 一 个 设备 名 。 


TensorFlow 会 针对 每 一 个 需要 在 这 个 设备 块 中 配置 的 操作 调用 这 个 方 
法 ， 同 时 这 个 方法 必须 返回 指定 操作 对 应 的 设备 名 。 举 个 例子 ， 下 面 的 














代码 就 把 所 有 的 可 变节 点 都 配置 到 "/cpu: 0"《〈 这 个 例子 中 就 只 有 变量 
a) ， 所 有 的 节点 都 配置 到 "gpu: 0": 





def variables_on_cpu(op): 
if op.type == "Variable": 
return "/cpu:QO" 
else: 
return "/gpu:0O" 


with tf.device(variables_on_cpu): 
tf.Variable(3.0) 
tf.constant(4.0) 

* b 


a 
b 
c=a 





可 以 很 容易 地 实现 更 复杂 的 算法 ， 比 如 以 循环 方式 将 变量 固定 在 
GPU 之 间 。 


操作 和 内 核 


要 让 一 个 TensorFlow 操 作 运 行 在 一 台 设 备 上 ， 需 要 有 和 针对 那 台 设备 
的 实现 ， 这 称 为 一 个 内 核 。 许 多 操作 都 有 CPU 和 GPU 的 内 核 ， 但 不 是 所 
有 都 有 内 核 。 比 如 ，TensorFlow 针 对 整数 变量 就 没有 GPU 内 核 ， 所 以 下 
面 的 代码 在 TensorFlow 演 试 在 0 与 GPU 上 配置 变量 i 时 会 失败 : 





>>> with tf.device("/gpu:0"): 
Pe i = tf.Variable(3) 
[...] 


>>> sess.run(i.initializer) 
Traceback (most recent call last): 


[...] 
tensorflow.python.framework.errors.InvalidArgumentError: Cannot assign a device 
to node 'Variable': Could not satisfy explicit device specification 





注意 : TensorFlow 推 测 变量 一 定 是 int32 类 型 ， 因 为 初始 值 是 一 个 整 
数 。 如 果 把 初始 值 从 3 变 成 3.0， 或 者 在 生成 这 个 变量 时 明确 设置 
dtype=tf.float32， 那 么 所 有 操作 都 会 正常 运行 。 


软 配 置 


默认 情况 下 ， 如 果 你 想 在 一 台 设备 上 固定 一 个 没有 内 核 的 操作 ， 那 
么 在 TensorFlow 尝 试 将 操作 配置 到 设备 上 时 ， 你 就 会 收 到 之 前 显示 的 异 
常 。 如 果 你 更 希望 TensorFlow 回 归 到 GPU， 你 可 以 设置 
allow_soft_placement 选 项 为 True: 





with tf.device("/gpu:0"): 
i = tf.Variable(3) 


config = tf.ConfigProto( ) 

config.allow_ soft_placement = True 

sess = tf.Session(config=config) 

sess.run(i.initializer) # the placer runs and falls back to /cpu:0 





到 目前 为 止 我 们 已 经 讨论 了 如 何在 不 同 的 设备 上 配置 节点 。 现 在 我 
们 来 看 看 TensorFlow 如 何 并 行 执行 这 些 节点 。 


并 行 执行 


当 TensorFlow 运 行 一 个 图 时 ， 它 会 先 找 出 需要 评估 的 节点 的 列表 ， 
以 及 每 一 个 节点 的 依赖 数 。 接 着 TensorFlow 会 从 无 依赖 的 节点 开始 评估 
〈 即 源 节 点 ) 。 如 果 这 些 节 点 配置 在 了 不 同 的 设备 上 ， 那 么 很 明显 它们 
就 可 以 同时 评估 。 如 果 它 们 配置 在 了 同一 台 设 备 上 ， 则 可 以 在 不 同 的 线 
0 因此 也 可 以 并 行 运行 〈 在 不 同 的 GPU 线程 或 CPU 内 核 
) 


TensorFlow 管 理 每 一 台 设 备 的 线程 池 来 并 行 化 操作 〈 见 图 12-5) 。 
它们 称 为 inter-op 线 程 池 。 一 些 操作 具有 多 线程 内 核 : 它们 可 以 使 用 其 他 
称 为 intra-op 线 程 池 的 线程 池 【〈 每 个 设备 一 个 ) 。 











图 12-5: TensorFlow 图 的 并 行 化 执行 


举 个 例子 ， 在 图 12-5 中 ， 操 作 A、 操 作 B 和 操作 C 是 源 操作 ， 所 以 它 
们 可 以 被 立刻 评估 。 操 作 A 和 操作 B 放 在 0 号 GPU 上 ， 所 以 它们 被 送 至 设 
备 的 inter-op 线 程 池 ， 从 而 被 并 行 评估 。 操 作 A 人 页 巧 有 多 线程 内 核 ， 它 的 
计算 就 会 分 成 三 部 分 ， 由 intra-op 线 程 池 并 行 执行 。 操 作 C 会 到 达 GPU 1 
号 的 inter-op 线 程 池 。 


一 旦 操作 C 完 成 ， 操 作 D 和 操作 三 的 依赖 计数 器 就 会 开始 减 小 ， 最 终 
都 会 为 0， 所 以 这 两 个 操作 也 会 被 送 到 inter-op 线 程 池 来 执行 。 





Qa 以 通过 设置 inter_op_parallelism_threads 选 项 来 控制 每 一 个 
inter-op 池 的 线程 数量 。 注 意 ， 你 开始 的 第 一 个 会 话 创建 了 inter-op 线 程 
池 。 其 他 会 话 会 重用 它们 ， 除 非 设 置 use_per_session_threads 选 项 为 
True。 可 以 通过 设置 intra_op_parallelism_threads 选 项 来 控制 每 一 个 intra- 


op 线程 池 的 线程 数 。 
控制 依赖 


在 某 些 例子 中 ， 推 迟 一 个 操作 的 评估 可 能 会 比较 明智 ， 即 使 所 有 它 
依赖 的 操作 都 已 经 执行 。 举 个 例子 ， 如 果 它 用 了 大 量 的 内 存 ， 但 只 是 图 
中 很 深 的 地 方 需要 它 的 值 ， 那 最 好 束 在 最 后 再 评估 它 ， 从 而 可 以 避免 不 
必要 地 占用 其 他 操作 可 能 需要 的 RAM。 男 一 个 例子 是 一 组 依赖 设备 外 
数据 的 操作 。 如 果 它 们 同时 运行 ， 将 暂 用 设备 的 通信 带宽 ， 最 终 可 能 4 
致 全 部 停 在 WO 上 。 其 他 需要 通信 数据 的 操作 将 被 阻 罕 。 比 较 好 的 方式 
ee 从 而 允许 设备 可 以 同时 执行 其 他 的 操 








为 了 推迟 评估 一 些 节 点 ， 一 个 简 捍 的 方法 是 添加 控制 依赖 。 例 如 下 
面 的 代码 就是 告诉 TensorFlow 只 有 在 a 和 b 都 评估 完 之 后 才 可 以 评估 x 和 
y: 


a = tf,.constant(1.0) 

b=a+2.0 

with tf.control dependencies([a, b]): 
x = tf,constant(3.0) 
y = tf.constant(4.0) 


z=x+y 


很 明显 ， 因 为 z 依 赖 于 x 和 y， 所 以 评估 z 意 味 着 要 等 a 和 和 b 评 估 完 ， 尺 
管 它 没有 明确 地 在 control_dependencies() 块 中 。 同 样 ， 因 为 b 依 赖 于 
a， 所 以 可 以 通过 只 创建 上 b] 而 不 是 [a，b] 的 控制 依赖 来 简化 前 面 的 代 
码 ， 但 是 有 些 例子 中 “ 显 式 优 于 隐 式 ”。 

很 棒 ! 你 现在 知道 : 

:如 何在 不 同 设备 上 以 不 同方 式 来 配置 操作 。 

如何 并 行 执行 这 些 操作 。 

:如何 通过 创建 控制 依赖 来 优化 并 行 执行 。 

是 时 候 开 始 跨 多 服务 器 来 分 进行 布 式 计算 了 ! 











册 ] “TensorFlow: Large-Scale Machine Learning on Heterogeneous 
Distributed Systems”, Google Research (2015) 。 


多 设备 路 多 服务 需 


要 实现 跨 服 务 器 来 运行 图 ， 首 先 需要 定义 一 个 集群 。 集 群 由 一 个 或 
多 个 TensorFlow 服 务 器 〈 称 为 任务 ) 组 成 ， 任 务 通 常 分 布 在 多 台 机 器 上 
〈 见 图 12-6) 。 每 一 个 任务 都 属于 一 个 作业 。 作 业 是 一 组 通常 具有 共同 
作用 的 任务 ， 比 如 追踪 模型 参数 (这 个 作业 通常 用 "ps" 来 表示 参数 服务 
右 ) ， 或 者 执行 计算 〈 这 个 作业 通常 称 为 "worker") 。 


作业 “ps” 作业 “worker” 
Task 0 是 Task 0 Task 1 | 


tep:2221 tep:2222 tep:2222 


TF 服务 器 
Master 





图 12-6: TensorFlow 集 群 


下 面 的 集群 规范 定义 了 两 个 作业 "ps" 和 "worker"， 二 者 分 别 包含 一 
个 和 两 个 任务 。 在 这 个 例子 中 ， 机 器 A 托管 两 个 TensorFlow 服 务 嚣 〈( 即 





任务 ) ， 监 听 不 同 的 端口 : 一 个 是 "ps" 作 业 的 一 部 分 ， 另 一 个 
是 "worker" 作 业 的 一 部 分 。 机 器 B 只 有 一 个 TensorFlow 服 务 器 ， 只 
是 "worker" 作 业 的 一 部 分 。 





cluster_spec = tf.,train.ClusterSpec({ 
"ps": [ 
"machine-a.example.com:2221", # /job:ps/task:0 


了 

"worker": [ 
"machine-a.example.com:2222", # /job:worker/task:0 
"machine-b.example.com:2222", # /job:worker/task:1 


]}) 





为 了 启动 一 个 TensorFlow 服 务 嚣 ， 需 要 创建 一 个 Server 对 象 ， 把 它 
传 给 集群 规范 〈 这 样 才 能 和 其 他 服务 器 通信 ) ， 同 时 有 作业 名 称 和 任务 
举 个 例子 ， 为 了 开始 第 一 个 worker 任 务 ， 需 要 在 机 器 A 上 运行 下 面 
代码 : 





server = tf.train,.Server(cluster_spec, job name="worker", task_index=0) 





通常 一 台 机 器 上 只 运行 一 个 任务 会 更 简单 ， 但 是 之 前 的 例子 说 明 
TensorFlow 支 持 你 在 同一 台 机 器 运行 多 个 任务 。 山 如 果 在 一 台 机 器 上 有 
多 个 服务 器 ， 需 要 确保 它们 不 会 像 之 前 提 到 的 那样 同时 尝试 去 占用 每 一 
个 GPU 的 所 有 RAM。 举 个 例子 ， 图 12-6 中 的 "ps" 任 务 没 有 GPU， 因 为 推 
测 其 进程 是 使 用 CUDA_VISIBLE_DEVICES="" 启 动 的 。 注 意 ，CPU 是 
共享 给 同一 台 机 器 上 的 所 有 任务 的 。 


如 果 你 只 想 启 动 TensorFlow 服 务 器 但 什么 也 不 做 ， 你 可 以 通过 让 
TensorFlow 等 待 服务 器 完成 join 〈) 方法 来 阻 断 主 进程 〈 否 则 服务 器 会 
在 主 进程 退出 时 立刻 关 掉 ) 。 因 为 目前 没有 方法 可 以 俘 止 服务 器 ， 所 以 
这 样 就 会 一 直 阻 断 : 











Server ,join() # blocks until the server stops (i.e., never) 








开启 一 个 会 话 


一 旦 所 有 任务 启动 并 运行 (不 做 任何 事情 〉， 就 可 以 在 任何 服务 器 
上 从 位 于 任何 一 台 机 器 上 的 任何 进程 中 的 客户 端 〈 甚 至 从 运行 其 中 一 个 








任务 的 进程 ) 中 开局 会 话 ， 并 像 一 个 间 规 的 本 地 会 话 一 样 使 用 该 会 话 。 
尝 个 例子 ; 


f,constant(1.0) 
十 


with tf,.Session("grpc://machine-b.example.com:2222") as sess: 
print(c.eval()) # 9.0 


这 段 客 户 端 代码 首先 创建 了 一 个 简单 的 图 ， 然 后 在 位 于 机 器 B (我 
们 称 为 master) 的 TensorFlow 服 务 器 上 开局 一 个 会 话 ， 然 后 让 它 去 评估 
c。master 会 开始 将 操作 配置 到 合适 的 设备 上 。 在 这 个 例子 中 ， 因 为 我 们 
所 ss 目 已 的 


内 要 5 
并 返 回 结果 。 
master 和 worker 上 服务 


客户 端 使 用 gRPC 协 议 〈Google 远 程 过程 调 用 ) 在 服务 右 间 进行 通 
信 。 这 是 一 个 很 蜗 效 的 开源 框架 ， 用 来 调用 远程 函数 并 通过 跨 多 个 平台 
和 语言 来 获得 输出 。 包 这 个 协议 基于 HITP2， 即 打开 一 个 连接 ， 并 在 整 
个 会 话 过 程 中 保持 打开 ， 一旦 建 并 连接 就 允 主 高 效 的 双 回 通信 。 数 据 以 
协议 绥 冲 区 “Google 为 一 个 开源 技术 〉 的 形式 传输 。 这 是 一 种 轻 量 级 的 
进 制 数据 交换 格式 。 














本 所 有 服务 器 在 集群 内 部 都 可 以 相互 通 
言 ， 所 以 要 确保 打开 防火 墙 上 的 相应 端口 。 


每 一 个 TensorFlow 服 务 嚣 都 提供 两 个 服务 : master 和 worker。master 
用 于 给 客户 端 创建 会 话 ， 并 用 其 运行 图 。 和 依赖 
于 worker 实 际 执行 其 他 任务 的 计算 并 获得 结果 。 


这 个 架构 给 了 你 很 多 灵活 性 。 一 个 客户 端 可 以 通过 在 不 同 线程 中 开 
启 多 个 会 话 来 连接 到 不 同 的 服务 器 。 一 个 服务 器 可 以 同时 处 理 来 自 一 个 
或 多 个 客户 端的 会 话 。 可 以 一 个 客户 端 一 个 任务 〈 通 党 在 同一 个 进程 
中 ) ， 或 者 一 个 客户 端 负责 所 有 任务 。 所 有 的 选择 都 是 开放 的 。 


一 


分 配 路 任务 操作 


可 以 通过 指定 作业 名 称 、 任 务 索 引 、 设 备 型 号 和 设备 索引 ， 使 用 设 
备 块 对 由 任何 任务 管理 的 任何 设备 进行 分 配 操 作 。 举 个 例子 ， 下 面 的 代 
码 将 a 分 配 到 "ps" 作 业 《〈 即 机 器 A 的 CPU) 中 的 第 一 个 任务 ， 将 b 分 给 
由 "worker" 作 业 〔 即 机 器 A 的 GPU 1 号 ) 的 第 一 个 任务 管理 的 第 二 个 
GPU。 最 后 ，c 没 有 分 给 任何 设备 ， 所 以 master 把 它 配置 到 自己 的 默认 设 
备 〈 机 器 B 的 0 号 GPU 设备 ) 。 





with tf.device("/job:ps/task:0/cpu:0") 
a=tf,constant(1.0) 


with tf.device("/job:worker/task:0/gpu:1") 
b=a+2 


c=a+b 





与 之 前 一 样 ， 如 果 你 漏 掉 设备 型 号 和 索引 ，TensorFlow 会 默认 配置 
到 任务 的 默认 设备 ， 举 个 例子 ， 固 定 操 作 "job: ps/task: 0" 会 配置 
到 "ps" 作 业 的 第 一 个 任务 的 默认 设备 上 “【〔 即 机 器 A 的 CPU)〉。 如 果 你 同 
时 漏 掉 任 务 索 引 〔( 比 如 "job: ps") ，TensorFlow 会 默认 为 "/task: 0"。 
0 
master 任 务 。 


跨 多 参数 服务 器 分 片 变 量 


正如 我 们 很 快 会 看 到 的 ， 在 一 个 分 布 式 环境 下 训练 神经 网 络 的 常用 
模板 是 将 模型 参数 存储 在 参数 服务 器 集合 〈 即 "ps" 作 业 中 的 任务 ) 上， 
同时 其 他 任务 专注 于 运算 〈 即 "worker" 作 业 中 的 任务 ) 。 对 于 有 上 亿 参 
数 的 大 模型 ， 跨 多 参数 服务 器 来 分 片 这 些 参数 是 非常 有 用 的 ， 可 以 降低 
单个 参数 服务 器 的 网 卡 饱 和 的 风险 。 如 果 你 之 前 手动 给 不 同 的 参数 服务 
器 配置 变量 ， 那 束 太 枯燥 了 。 斑 运 的 是 ，TensorFlow 提 供 了 
replica_device_setter( ) 方法 ， 它 以 循环 方式 在 所 有 "ps" 任 务 之 前 配置 变 
量 。 举 个 例子 ， 下 面 的 代码 在 两 个 参数 服务 器 上 配置 五 个 变量 : 














with tf.device(tf.train.replica device setter(ps_ tasks=2): 
v1 = tf.Variable(1.0) # pinned to /job:ps/task:0 
v2 = tf.Variable(2.0) # pinned to /job:ps/task:1 
v3 = tf.Variable(3.0) # pinned to /job:ps/task:0 
v4 = tf.Variable(4.0) # pinned to /job:ps/task:1 
v5 = tf.Variable(5.0) # pinned to /job:ps/task:0 





不 ` 要 传 ps_ tasks 的 个 数 ， 可 以 传 集群 规范 cluster=cluster_spec， 
TensorFlow 会 简单 计算 "ps" 作 业 中 的 任务 个 数 。 


如 果 在 块 中 创建 了 其 他 操作 ， 不 仅仅 是 变量 ，TensorFlow 会 目 动 将 
它们 分 配给 job: worker"， 这 样 就 会 默认 分 配 到 由 "worker" 作 业 中 的 第 
一 个 任务 管理 的 第 一 个 设备 上 。 可 以 通过 设置 worker_device 参 数 将 它们 
分 配 到 其 他 设备 ， 但 是 比较 好 的 方式 是 用 组 入 式 设备 块 。 内 部 设备 块 可 
以 履 兰 外 部 设备 块 中 定义 的 设备 作业 、 任 务 或 设备 。 比 如 : 











with tf.device(tf.train.replica device setter(ps_ tasks=2)): 
v1 = tf.Variable(1.0) # pinned to /job:ps/task:©0 (+ defaults to /cpu:0) 
v2 = tf.Variable(2.0) # pinned to /job:ps/task:1 (+ defaults to /cpu:0) 
v3 = tf.Variable(3.0) # pinned to /job:ps/task:©0 (+ defaults to /cpu:0) 
[...] 


Ss=Vv1i+ v2 # pinned to /job:worker (+ defaults to task:0/gpu:0) 
with tf.device("/gpu:1"): 
p1=2*S # pinned to /job:worker/gpu:1 (+ defaults to /task:0) 
with tf. eV Le '/task:1"): 
p2 = 3 S # pinned to /job:worker/task:1/gpu:1 





> 这 个 例子 假设 参数 服务 器 是 仅 CPU， 因 为 通常 情况 下 ， 它 们 仅 
需要 存储 和 传递 参数 ， 而 不 需要 执行 密集 计算 。 


用 资源 容器 跨 会 话 共 至 状态 


当 使 用 一 个 简单 本 地 会 话 ( 非 分 布 式 ) 时 ， 每 一 个 变量 的 状态 都 是 
由 会 话 本 里 管 4 理 的 ， 会 话 一 旦 结束 ， 所 有 变量 值 都 会 丢 挥 。 而 且 ， 多 个 
本 地 会 话 没 办 法 共 至 任何 状态 ， 即 使 它们 都 在 运行 同一 个 图 ;每 一 个 会 
话 都 有 自己 所 有 变量 的 副本 第 9 章 讨 论 过 ) 。 对 比 而 言 ， 当 使 用 分 布 
式 会 话 时 ， 变 量 状态 由 集群 自己 的 资源 容器 管理 ， 而 非 会 话 。 所 以 如 末 
你 用 一 个 客户 端 会 话 创 建 一 个 名 为 x 的 变量 ， 它 会 自动 对 同一 集群 的 其 
他 会 人 《即使 两 个 会 话 连接 至 不 同 的 服务 器 ) 。 来 看 一 下 下 面 的 客 
户 站 代码 : 


























# simple_client.py 
import tensorflow as tf 
import sys 


x = tf.Variable(0.0, name="x") 
increment_x = tf.assign(x, x + 1) 


with tf,Sesslion(Sys.argv[1]) as sess: 
if sys.argv[2:]==["init"]: 
sess.run(x.initializer) 
sess.run(increment_x) 
print(x.eval()) 





假设 你 有 一 个 启动 的 TensorFlow 和 集群 ， 运 行 在 机 器 A 和 机 器 B 上 ， 
端口 号 为 2222。 可 以 启动 客户 端 ， 并 且 开 启 一 个 和 机 器 A 的 会 话 ， 用 下 
面 的 命令 让 它 初 始 化 一 个 参数 ， 增 加 并 输出 它 的 值 : 





$ python3 simple client.py grpc://machine-a.example.com:2222 init 
1.0 





如 果 用 下 面 的 命令 局 动 客户 端 ， 会 连接 到 机 器 B 的 服务 器 上 ， 并 且 
SB 
变量 ) : 








$ python3 Slimple_client,.py grpc://machine-b.example.com:2222 
2.0 





这 个 功能 可 以 分 为 两 种 方式 : 如 果 你 想 路 会 话 共 孚 变量 ， 那 么 就 没 
有 问题 ， 但 如 果 你 想 要 在 同一 个 集群 里 运行 一 个 完全 独立 的 运算 ， 那 么 
你 就 要 非 第 小心， 不 要 误 用 同一 个 变量 名 。 确 保 不 会 出 现 名 称 冲突 的 一 
种 方式 是 将 所 有 构造 阶段 都 包含 在 变量 作用 域内 ， 并 给 每 一 个 运算 使 用 
唯一 的 名 称 ， 举 个 例子 : 





with tf.variable_ scope("my_problem 1"): 
[...] # Construction phase of problem 1 





更 好 的 方法 是 使 用 容器 块 : 





with tf.container("my_problem 1"): 
[...] # Construction phase of problem 1 





它 会 使 用 针对 问题 1 的 一 个 容器 ， 而 非 默认 的 (名 字 是 一 个 空 字 符 
串 “”) 。 一 个 优点 是 变量 名 可 以 保持 精简 。 男 一 个 优点 是 可 以 很 方便 地 
重 置 一 个 已 经 命名 过 的 容器 。 举 个 例子 ， 下 面 的 命令 可 以 连接 到 机 器 A 
的 服务 器 ， 并 且 将 容器 名 重 置 为 "my_problem_1"， 同 时 释放 这 个 容器 之 











前 使 用 过 的 所 有 资源 (并 且 关 闭 服务 器 上 所 有 会 话 ) 。 这 个 容器 管理 的 
任何 变量 都 必须 重新 初始 化 才 可 以 再 次 使 用 : 


tf.Session.reset("grpc://machine-a.example.com:2222", ["my_problem 1"]) 














资源 容器 让 灵活 跨 会 话 共 % 享 变量 变 得 很 容易 。 举 个 例子 ， 图 12-7 给 
出 了 在 同一 个 集群 运行 不 同 图 的 四 个 客户 端 ， 但 共享 一 些 变量 。 客 户 端 
A 和 客户 端 B 共 享 则 -个 由 默认 容器 管理 的 变量 x ”客户 端 C 和 客户 站 D 
则 共享 由 名 为 "my_problem_1" 的 容器 管理 的 名 为 x 的 变量 。 注 意 ， 客 户 
端 C 甚 至 使 用 来 目 两 个 容 堪 的 变量 。 
















< 
"" (default) 
X=1.0,y=3.1 


"my problem 1" 
X=3.0,7=4 








图 12-7: 资源 容器 
资源 容器 还 保留 其 他 状态 操作 的 状态 ， 即 队列 和 读 取 器 。 让 我 们 先 


看 一 下 队列 。 
使 用 TensorFlow 队 列 进行 异步 通信 
队列 是 另 一 种 在 多 会 话 之 间 交 换 数 据 的 好 方法 ;一 个 党 用 的 例子 





是 ， 让 一 个 客户 端 构 造 一 个 加 载 训练 数据 并 将 其 存 入 一 个 队列 的 图 ， 同 
时 男 一 个 客户 端 构建 一 个 从 队列 里 读 取 数据 并 且 训 练 模 型 的 图 ( 见 图 
12-8) 。 这 样 可 以 有 效 提 高 训练 速度 ， 因 为 训练 操作 不 用 在 每 一 步 都 等 
待 下 一 个 小 批量 。 











图 12-8: 用 队列 异步 加 载 训练 数据 


TensorFlow 提 供 了 各 种 类 型 的 队列 。 最 简单 的 是 先进 先 出 (FIFO) 
队列 。 例 如 ， 以 下 代码 构建 了 一 个 可 以 存储 多 达 10 个 张 量 的 FIFO 队 列 ， 
其 中 包含 两 个 浮 点 数 : 


q = tf.FIFOQUeue(capacity=10, dtypes= [tf float32], shapes=[[2]], 
me="q", shared name="shared_q") 








然 | 要 卫生 话 共享 变量， 只 只 需要 在 两 端 指 定 相 同 的 名 称 和 容器 即 
ls 对 于 队 忒 由 TensorFlow 使 用 shared_name 属 性 而 不 是 name 所 以 一 定 
要 指定 它 〈 尺 管 它 和 name 一 样 )。 同 样 ， 要 使 用 相同 的 容器 。 


数据 入 队 


要 将 数据 放 入 一 个 队列 ， 需 要 创建 enqueue 操 作 。 例 如 ， 下 面 的 代 
码 将 三 个 训练 实例 存 入 队列 : 





# training_data Joader ,py 
import tensorflow as tf 


= [...] 
training_instance = tf,placeholder(tf.float32, shape=(2)) 
enqueue = q.enqueue([training_instance]) 


with tf.Session("grpc://machine-a.example.com:2222") as sess: 
sess.run(enqueue, feed dict={training_ instance: [1., 2.]}) 
sess.run(enqueue, feed dict={training_ instance: [3., 4.]}) 
sess.run(enqueue, feed dict={training_instance: [5., 6.]}) 





不 需要 逐个 使 实例 入 队 ， 可 以 用 enqueue_many 操 作 一 次 使 几 个 实例 
入 队 : 





| 
training_instances = tf.placeholder(tf.float32, shape=(None, 2)) 
enqueue_many = q.enqueue([training_instances]) 


with tf.Session("grpc://machine-a.example.com:2222") as sess: 
sess.run(enqueue_ many, 
feed dict={training_instances: [[1., 2.], [3., 4.], [5., 6.]]}) 





两 个 例子 都 使 三 个 同样 的 张 量 入 队 。 
数据 出 队 
要 从 为 一 亲 将 实例 从 队列 中 取出 来 ， 震 要 使 用 dequeue 操 作 : 





# trainer.py 
import tensorflow as tf 


q= [...] 

dequeue = q.dequeue() 

with tf,.Session("grpc://machine-a.example.com:2222") as sess: 
print(sess.run(dequeue)) # [1., 2.] 
print(sess.run(dequeue)) # [3., 4.] 
print(sess.run(dequeue)) # [5., 6.] 








通常 你 会 希望 能 一 次 取出 整个 小 批量 ， 而 不 是 一 次 只 取 一 个 实例 。 
要 做 到 批量 取出 ， 需 要 使 用 dequeue_many 操 作 ， 并 定义 好 小 批量 的 大 


小 : 


batch_size = 2 
dedueue_mini_batch= q.dequeue many(batch_ size) 
with tf.Session("grpc://machine-a.example.com:2222") as sess: 


print(sess.run(dequeue mini batch)) # [[1., 2.], [4., 5.]] 
print(sess.run(dequeue mini batch)) # blocked waiting for another instance 





当 队 列 满 时 ，enqueue 操 作 会 停 下 来 ， 直 到 有 数据 通过 dequeue 操 作 
取出 。 同 样 ， 当 队列 空 〈 或 者 当 使 用 dequeue_many 〈) 操作 时 ， 数 据 量 
小 于 小 批量 大 小 ) 时 ，dequeue 操 作 会 停 下 来 ， 直 到 有 足够 的 数据 通过 
enqueue 操 作 存 入 


元 组 队列 
队列 中 每 一 项 都 可 以 是 一 个 张 量 ( 不 同 的 类 型 和 形状 〉 元 组 ， 而 非 


一 个 单独 的 张 量 。 举 个 例子 ， 下 面 的 队列 存储 了 一 些 张 量 对 ， 一 个 是 类 
型 int32 和 shape () ， 另 一 个 是 类 型 float32 和 shape[3，2]: 








q = tf.FIFOQUueue(capacity=10, dtypes=[tf.int32, tf.float32], shapes=[[],[3,2]], 
name="q", shared_ name="shared_q") 





enqueue 操 作 必 须 赋 值 张 量 对 注意， 每 一 对 只 代表 队列 中 一 个 元 
系 ) : 





a = tf.placeholder(tf.int32, shape=()) 
b = tf.placeholder(tf.float32, shape=(3, 2)) 
enqueue = q.enqueue((a, b)) 


with tf.Session([...]) as sess: 
sess.run(enqueue, feed dict={a: 10, b:[[1., 2.], [3., 4.], [5S5., 6.]]}) 
sess.run(enqueue, feed dict={a: 11, b:[[2., 4.], [6., 8.], [9., 2.]]}) 
sess.run(enqueue, feed dict={a: 12, b:[[3., 6.], [9., 2.], [5., 8.]]}) 








在 男 一 端 ，dequeue() 方法 同时 构造 一 对 出 队 操 作 : 





dequeue a, dequeue b = q.dequeue() 





常情 况 下 ， 要 一 起 运行 这 些 操作 : 





with tf.Session([...]) as sess: 
a_val, b_val = sess.run([dequeue a, dequeue_b]) 
print(a_val) # 10 
print(b_val) # [[1., 2.], [3., 4.], [5., 6.]] 








a 它 就 会 出 队 一 对 并 且 只 返回 第 
一 个 元 素 ; 第 二 个 元 素 会 被 丢掉 〈 同 样 ， 如 果 在 队列 上 运行 
dequeue_b， 第 一 个 元 素 会 丢掉 ) 。 


dequeue_many() 方法 也 会 返回 一 对 操作 : 








batch_size = 2 
dequeue as, dequeue bs = q.dequeue many(batch_size) 





你 可 以 根据 你 的 需要 来 使 用 : 





with tf.Session([...]) as sess: 
ar b = Sess,run([dedueue_a，dedueue_b] ) 
print(a) # [10, 11] 
print(b) # [[[1., 2.], [3., 4.], [5., 6.]], [[2., 4.], [6., 8.], [9., 2.]]] 


a, b = sess.run([dequeue a, dequeue b]) # blocked waiting for another pair 





关闭 队列 


可 以 关闭 一 个 队列 以 同 其 他 会 话 发 出 信号 ， 这 样 就 不 会 再 有 数据 入 
队 : 





close q = q.close() 
with tf,Sesslion([...]) as sess: 


sess.run(close_q) 





顺序 执行 enqueue 或 者 enqueue_many 操 作 就 会 抛 出 异常 。 默 认 情 况 
下 ， 任 何 待 处 理 的 入 队 请 求 都 会 被 执行 ， 除 非 你 调用 


qd.close (cancel pending enqueues=True) 。 


顺序 执行 dedqueue 或 dedqueue_many 操 作 ， 只 要 队列 里 有 数据 就 会 一 
直 成 功 ， 但 当 队 列 中 元 素 不 足 时 就 会 失败 。 如 果 你 使 用 dequeue_many 操 
作 并 且 队 列 中 还 有 一 些 实例 ， 但 是 个 数 少 于 小 批量 大 小 ， 则 将 被 丢弃 。 


你 可 能 会 偏 同 使 用 dequeue_up_to 操 作 来 代 蔡 ， 该 操作 和 dequeue_many 类 
似 ， 除 了 当 队 列 关闭 且 存 于 少 于 batch_size 的 实例 时 ， 它 会 将 这 些 实例 
返回 。 


RandomShuffleQueue 








TensorFlow 还 支持 更 多 类 型 的 队列 ， 包 括 RandomShuffleQueue， 它 
与 FIFOQueue 用 法 一 致 ， 只 是 出 队 的 顺序 是 随机 的 。 它 可 以 用 于 在 训练 
过 程 中 每 一 个 全 数据 集 洗 牌 训练 实例 。 首 先 ， 先 创建 一 个 队列 : 





q = tf.RandomShuffleQueue(capacity=50, min_after_dequeue=10, 
dtypes=[tf.float32], shapes=[()], 
name="q", shared_name="shared_q") 





min_after_dequeue 指 定 了 在 出 队 操 作 后 必须 留 在 队列 里 的 张 量 最 小 
值 。 这 样 就 确保 队列 中 有 足够 的 实例 具有 足够 的 随机 性 《一 旦 队列 关 
闭 ，min_after_dequeue 限 制 会 被 忽略 〉。 限 制 假设 你 入 队 22 个 数据 ( 浮 
点 1. 到 22.) 。 下 面 告 诉 你 如 何 将 它们 出 队 : 





dequeue = q.dequeue_many(5) 


with tf,.Session([...]) as sess: 
print(sess.run(dequeue)) # [ 20. 15. 11. 12. 4.] (17 items left) 
print(sess.run(dequeue))#[ 5. 13. 6. 0. 17.] (12 items left) 
print(sess.run(dequeue)) # 12 - 5 < 10: blocked waiting for 3 more instances 





PaddingFifoQueue 


PaddingFIFOQueue 也 和 FIFOQueue 一 样 ， 除 了 它 接受 各 种 维度 (但 
是 固定 等 级 ) 可 变 大 小 的 张 量 。 如 果 你 使 用 dequeue_many 或 
dequeue_up_to 操 作 其 进行 出 队 时 ， 每 个 张 量 将 按照 每 个 可 变 维度 用 零 填 
充 ， 使 其 与 小 批量 中 最 大 张 量 的 大 小 相同 。 举 个 例子 ， 你 可 以 入 队 任 意 
大 小 的 二 维 张 量 〈 和 矩阵 ) : 














dq=tf.PaddingFIFOQueue(capacity=50，dtypes=[tf.float32]，shapes=[(None，None)] 
name="q", shared_ name="shared_q") 

v = tf.placeholder(tf.float32, shape=(None, None)) 

enqueue = q.enqueue([v]) 


with tf,.Session([...]) as sess: 
sess.run(enqueue, feed dict={v: [[1., 2.], [3., 4.], [5., 6.]]}) # 3X2 
sess.run(enqueue, feed dict={v: [[1.]]}) # 1x1 


sess.run(enqueue, feed dict={v: [[7., 8., 9., 5.], [6., 7., 8., 9.]]}) # 2x4 


如 琳 我 们 一 次 出 队 一 个 张 量 ， 我 们 会 获得 和 入 队 一 模 一 样 的 张 量 。 
但 是 如 有 果 我 们 一 次 出 队 好 几 个 (用 dequeue_many () 也 
dequeue_up_to〈) ) ， 队 列 束 会 自动 适当 地 填充 张 量 。 举 个 例子 ， 如 果 
我 们 一 次 出 队 三 个 张 量 ， 那么 所 有 张 量 都 会 被 零 填 充 为 3x4 的 张 量 ， 
为 第 一 维度 最 大 是 3 第 一 个 元 素 ) ， 第 二 维度 最 大 是 4〈 第 三 个 元 


人 ~ 





>>> q = [...] 
>>> dequeue = q.dequeue many(3) 
>>> with tf.Session([...]) as sess: 
print(sess.run(dequeue)) 
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这 个 队列 的 类 型 在 你 处 理 可 变 长 度 输入 时 很 有 用 ， 比 如 单词 序列 
( 见 第 14 章 ) 。 


我 们 先 停 一 下 : 到 目前 为 止 我 们 已 经 学 习 了 跨 设 备 和 服务 器 分 布 计 
算 ， 路 会 话 共享 变量 ， 以 及 利用 队列 异步 通信 。 在 开始 训练 神经 网 络 之 
前 ， 我 们 还 有 最 后 一 个 话题 需要 讨论 : 如 何 有 效 地 加 载 训练 数据 。 
直接 从 图 中 加 载 数据 

到 目前 为 止 ， 我 们 假设 客户 会 加 载 训练 数据 ， 并 使 用 占 位 符 将 其 提 
供给 集群 。 这 样 很 简单 ， 对 于 简单 的 设置 也 奏效 ， 但 是 它 不 够 有 效 ， 
为 它 传 输 了 训练 数据 好 几 次 : 

1. 从 文件 系统 到 客户 端 

2. 从 客户 端 到 master 任 务 。 


可 能 还 有 从 master 任 务 到 其 他 需要 数据 的 任务 。 


如 果 你 有 几 个 客户 端 用 相同 数据 (比如 ， 对 于 超 参数 调整 ， 来 训练 
各 种 神经 网 络 ， 情 况 则 会 变 得 很 糟 : 如 果 每 个 客户 端 同 时 加 载 数据 ， 可 
能 会 出 现 文件 服务 区 饱和 或 网 络 带 宽 饱 和 。 


预 加 载 数据 到 一 个 变量 


对 于 可 以 适应 内 存 的 数据 集 ， 一 个 比较 好 的 方式 是 一 次 性 加 载 训练 
数据 并 赋值 给 一 个 变量 ， 然 后 在 图 中 整 只 使 用 这 个 变量 。 这 说 称 为 预 加 
载 训练 集 。 使 用 这 个 方法 ， 数 据 只 会 从 客户 端 到 集群 被 传输 一 次 (但 是 
根据 哪个 任务 需要 它 ， 它 仍然 可 能 需要 从 任务 移动 到 操作 〉。 下 面 的 代 
人 码 告 诉 你 如 何 将 整个 训练 集 加 载 到 变量 中 去 : 








training_ set_init = tf,placeholder(tf.float32, shape=(None, n_features)) 
training_set = tf.Variable(training_ set_init, trainable=False, collections=[], 
name="training_set") 


with tf,.Session([...]) as sess: 
data = [...] # load the training data from the datastore 
sess.run(training_ set.initializer, feed dict={training set_init: data}) 





你 必须 设置 trainable=False， 以 便 优化 器 不 会 尝试 调整 变量 。 同 时 应 
该 设置 collections=[] 确 保 这 个 变量 不 会 加 入 
GraphKeys.GLOBAL_VARIABLES 集 合 ， 该 集合 是 用 于 保存 和 还 原 检 查 
点 的 O 





和 个 合子 假设 你 的 训 统 信 《包括 标签 ) 都 只 含有 float32 值 。 如 
果 不 是 这 样 ， 你 需要 给 每 一 种 类 型 设置 一 个 变量 。 


从 图 中 直接 读 取 训练 数据 

如 果 训 练 集 不 适应 内 存 ， 一 个 好 的 解决 方案 是 用 reader 操 作 : 它们 
是 可 以 直接 从 文件 系统 中 读 取 数据 的 操作 。 用 这 个 方法 训练 数据 将 不 再 
需要 在 客户 端 之 间 流 动 。TensorFlow 给 readers 提 供 了 丰富 的 文件 格式 : 

‘CSV 


定 长 二 进 制 记录 


.TensorFlow 自 己 的 TFRecords 格 式 ， 基 于 协议 缓冲 区 


我 们 来 看 一 个 简单 的 例子 ， 从 CSV 文 件 中 读 取 (对 于 其 他 格式 ， 请 
参见 API 文 档 ，。 假 设 你 有 一 个 包含 训练 实例 的 名 为 my_test.csv 的 文 
件 ， 并 且 你 希望 创建 操作 来 读 取 它 。 假设 它 具 有 两 个 浮 点 特征 x1 和 x2， 
一 个 整 型 target 代 表 二 进 制 类 ， 如 下 所 示 : 





1, x2, target 
了 








首先 ， 创 建 一 个 TextLineReader 来 读 取 这 个 文件 。 一 
TextLineReader 打 开 一 个 文件 〈 一 旦 我 们 告知 它 打 开 哪 个 ) 并 逐 行 读 
取 。 这 是 一 个 有 状态 的 操作 ， 类 似 变量 和 队列 : 它 保持 其 在 多 个 运行 图 
中 的 状态 ， 跟 踩 当前 正在 读 取 的 文件 及 其 当前 在 文件 中 所 处 的 位 置 。 








reader = tf.TextLineReader(skip_header_lines=1) 





接 下 来 ， 我 们 创建 一 个 队列 ，reader 将 从 下 一 步 中 知道 从 哪个 文件 
读 取 。 同 时 再 创建 一 个 入 队 操 作 和 一 个 占 位 符 ， 用 来 存储 任何 我 们 需要 
| 还 要 创建 一 个 操作 ， 一 旦 我 们 没有 需要 读 取 的 数据 就 用 它 来 
大 闭 队 列 : 





filename_queue = tf,.FIFOQUueue(capacity=10, dtypes=[tf.string], shapes=[()]) 
filename = tf.placeholder(tf.string) 

enqueue_filename = filename_queue.enqueue( [filename]) 

close_filename_queue = filename_queue.close() 





现在 我 们 可 以 创建 read 操 作 ， 一 次 读 取 一 条 记录 即 一 行 ) 并 返回 
一 个 键 值 对 。 键 是 记录 的 唯一 标识 符 一 一 一 个 由 文件 名 、 冒 喜 和 行 数组 
成 的 字符 串 ， 值 只 是 包含 该 行内 容 的 字符 串 : 








key, value = reader ,read(filename_queue ) 





我 们 可 以 逐 行 读 取 文件 中 所 有 的 内 容 ! 但 是 并 没有 完成 一 一 我 们 需 
要 解析 这 个 字符 串 来 获得 特征 和 目标 : 





x1, x2, target = tf,decode_csv(value，record_ defaults=[[-1.], [-1.], [-1]]) 
features = tf.stack([x1i, x2]) 





第 一 行 用 TensorFlow 的 CSV 解 析 器 从 当前 行 中 取 值 。 当 缺少 一 个 字 
段 〈 这 个 例子 中 第 三 个 训练 实例 的 x2 特 征 ) 时 会 使 用 默认 值 ， 并 且 它 们 
还 用 来 确认 每 一 字段 的 类 型 〈 本 例 中 为 两 个 浮 点 型 和 1 个 整 型 ) 。 


最 后 ， 我 们 可 以 将 这 个 训练 实例 和 它 的 对 象 存 入 一 个 
RandomShuffleQueue， 这 样 就 可 以 共享 训练 图 〈 它 也 可 以 从 队列 中 取出 
小 批量 数据 ) ， 同 时 我 们 会 创建 一 个 操作 在 结束 入 队 实例 之 后 关闭 队 
列 : 





instance_queue = tf.RandomShuffleQueuel( 

capacity=10, min_after_dequeue=2, 

dtypes=[tf.float32, tf.int32], shapes=[[2],[]], 

name="instance_q", shared name="shared instance_q") 
enqueue_instance = instance_queue.enqueue([features, target]) 
close_instance_queue = instance_queue.close() 





读 取 一 个 文件 真 的 是 一 个 不 小 的 工作 。 另 外 我 们 只 是 创建 了 图 ， 所 
以 现在 需要 运行 它 : 








with tf.Session([...]) as sess: 

sess.run(enqueue filename, feed_dict={filename: "my_test.csv"}) 
sess.run(close_filename_queue) 
try: 

while True: 

sess.run(enqueue_instance) 

except tf,errors.OutofRangeError as ex: 

pass # no more records in the current file and no more files to read 
sess.run(close_instance_queue) 





首先 我 们 打开 一 个 会 话 ， 然 后 入 队 一 个 文件 名 "my _test.csv"， 并 且 
在 需要 入 队 别 的 文件 名 时 立刻 关闭 这 个 队列 。 然 后 运行 一 个 无 限 循环 依 
次 入 队 实例 。enqueue_instance 依 赖 于 reader 读 取 下 一 行 ， 所 以 每 一 次 迭 
代 都 会 读 取 一 个 新 的 记录 直到 文件 最 后 一 行 。 在 那 一 刻 它 试 图 读 取 文件 
队列 来 获取 下 一 个 要 读 取 的 文件 ， 但 是 因为 队列 已 经 关闭 ， 所 以 会 抛 出 
一 个 OutOfRangeError 异 常 〈 如 果 我 们 没有 关闭 队列 ， 它 承 会 保持 阻塞 
状态 直到 我 们 存 入 另 一 个 文件 名 或 关闭 队列 ) 。 最 后 ， 我 们 关闭 实例 队 
列 ， 从 它 出 队 的 训练 操作 不 会 一 直 被 阻 罕 。 图 12-9 总 结 了 我 们 所 学 的 东 
西 ; 它 给 出 了 从 一 组 CSV 文 件 中 读 取 训练 实例 的 典型 图 。 








在 训练 图 中 ， 你 需要 创建 共享 实例 队列 并 从 中 出 队 小 批量 : 





instance_queue = tf,.RandomShuffleQueue([...], shared name="shared instance_q") 
mini_batch_instances, mini batch_ targets = instance_ queue.dequeue up_to(2) 
[...] # use the mini _ batch instances and targets to build the training graph 
training_op = [...] 


with tf.Session([...]) as sess: 
try: 
for step in range(max_steps): 
sess.run(training_op) 
except tf,.errors.OutOofRangeError as ex: 
pass # no more training instances 





实例 队列 


提前 过 程 





ANSY Dasv COsv 





图 12-9: 从 CSV 文 件 中 读 取 训练 实例 


在 这 个 例子 中 ， 第 一 个 小 批量 会 包含 CSV 文 件 的 头 两 个 实例 ， 第 二 
个 小 批量 会 包含 最 后 一 个 实例 。 














几 naanbiil 趟 阴 委 好 由 由 间 炳 席 议 冯 | 所 以 如 果 你 的 训练 
实例 是 稀疏 的 ， 你 应 该 在 实例 队列 之 后 解析 记录 。 

这 个 架构 只 使 用 一 个 线程 读 取 记录 和 将 其 存 入 实例 队列 。 通 过 使 用 
多 个 reader 同 时 从 多 个 文件 用 多 线程 来 读 取 ， 可 以 获得 更 高 的 吞吐 量 。 
我 们 来 看 如 何 实现 。 


使 用 协调 器 和 QueueRunner 的 多 线程 读 取 器 








要 满足 多 线程 同时 读 取 实例 ， 你 可 以 创建 Python 线程 《用 threading 
模块 ) 并 自行 管理 。 当 然 ，TensorFlow 也 提供 了 一 些 工 具 ， 如 
Coordinator 类 和 QueueRunner 类 可 以 帮助 你 让 这 个 过 程 更 容易 一 些 。 


Coordinator 是 一 个 非常 简单 的 对 象 ， 它 唯一 的 目的 就 是 协调 停止 多 
个 线程 。 首 先 ， 创 建 一 个 Coordinator: 








coord = tf.train.Coordinator() 





， 接着 你 把 它 传 给 所有 需要 联合 停止 的 线程 ， 并 且 它 们 的 主 循环 相 
以 : 





while not coord.should_stop(): 
[...] # do something 





任何 线程 都 可 以 通过 调用 Coordinator 的 request_stop 〈) 方法 来 停止 
每 个 线程 : 





coord.request_stop() 








每 个 线程 在 完成 它 当前 适 代 后 都 会 停止 。 你 可 以 通过 调用 
Coordinator 的 join ( ) 方法 来 等 待 所 有 线程 结束 ，join() 方法 接受 线程 
数组 作为 参数 ; 





coord.join(1List_of_threads ) 





QueueRunner 会 开局 多 线程 重复 进行 入 队 操作 ， 以 最 快速 度 将 一 个 
队列 填 满 。 当 该 队列 关闭 时 ， 下 一 个 试图 继续 同 队 列 里 插入 元 素 的 线程 
将 收 到 一 个 名 为 OutOfRangeError 的 错误 ， 于 是 该 线程 会 捕获 此 错误 并 
立即 通知 其 他 线程 停止 使 用 Coordinator。 下 面 的 代码 展示 了 如 何 使 用 
QueueRunner 来 用 5 个 线程 同时 读 取 实例 并 将 它们 放 入 一 个 实例 队列 。 





[...] # same construction phase as earlier 
dueue_runner = tf.,train.QueueRunner(instance_ queue, [enqueue instance] * 5) 


with tf.Session() as sess: 
sess.run(enqueue filename, feed dict={filename: "my_test.csv"}) 


sess.run(close filename_queue) 
coord = tf.train.Coordinator() 
enqueue_threads = queue runner.create_ threads(sess, coord=coord, start=True) 





第 一 行 创建 了 QueueRunner 告 诉 它 运行 五 个 线程 ， 并 且 都 重复 执行 
enqueue_instance 操 作 。 然 后 开启 一 个 会 话 ， 并 入 队 需 要 读 取 的 文件 名 
(这 个 例子 里 是 "my_test.csv") 。 接 着 ， 创 建 一 个 Coordinator， 
QueueRunner 会 像 刚 刚 提 到 的 那样 调用 它 来 停 目 线程。 最后， 告诉 
QueueRunner 创 建 并 开局 线程 。 这 些 线程 会 读 取 所 有 训练 实例 并 将 它们 
存 入 实例 队列 里 ， 之 后 它们 也 会 优雅 地 结束 工作 。 


这 样 会 比 之 前 效率 更 高 一 些 ， 但 是 我 们 仍然 可 以 做 得 更 好 。 当 前 所 
有 的 线程 都 从 同一 文件 里 读 取 。 换 种 方式 ， 我 们 可 以 通过 创建 多 个 
reader 〈( 见 图 12-10) ， 然 后 让 它们 同时 读 取 多 个 文件 (假设 训练 数据 被 
分 片 在 不 同 的 CSV 文 件 里 ) 。 
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图 12-10: 同时 读 取 多 文件 


为 了 实现 这 个 功能 ， 我 们 需要 写 一 个 函数 ， 创 建 一 个 reader 和 一 些 
节点 ， 来 完成 读 取 和 将 实例 存 入 实例 队列 的 工作 : 





def read and push_instance(filename queue, instance_queue): 
reader = tf.TextLineReader(skip_header_lines=1) 


key, value = reader ,read(filename_queue ) 

x1, x2, target = tf,decode_csv(value，record_ defaults=[[-1.], [-1.], [-1]]) 
features = tf.stack([x1i, x2]) 

enqueue_instance = instance_queue.enqueue([features, target]) 

return enqueue_instance 





接着 定义 队列 : 





filename_queue = tf,.FIFOQUeue(capacity=10, dtypes=[tf.string], shapes=[()]) 
filename = tf.placeholder(tf.string) 

enqueue_filename = filename_queue.enqueue( [filename]) 

close_filename_queue = filename_queue.close() 


instance_queue = tf,.RandomShuffleQueue([...]) 





最 后 我 们 创建 QueueRunner， 但 这 一 次 我 们 传 给 它 一 个 不 同 入 队 操 
作 的 列表 。 每 一 个 操作 都 会 使 用 一 个 不 同 的 reader， 从 而 保证 线程 会 同 
时 读 取 不 同 的 文件 : 





read_and_enqueue ops = [ 
read_and_push_instance(filename_ queue, instance_queue) 
for i in range(5)] 
queue_runner = tf.train.QueueRunner(instance_queue, read_ and_ enqueue_ops) 








执行 阶段 和 之 前 一 样 : 首先 将 要 读 取 的 文件 名 存 起 来 ， 接 着 创建 
Coordinator 来 创建 并 启动 QueueRunner 线 程 。 这 一 次 所 有 的 线程 都 会 同 
时 读 取 不 同 的 文件 ， 直 到 读 取 完毕 ， 接 着 ，QueueRunner 会 关闭 实例 队 
列 ， 以 便 其 他 操作 在 从 中 取 数 据 时 不 会 被 阻塞 。 


其 他 方便 的 功能 


TensorFlow 还 提供 了 一 些 方便 的 功能 ， 以 便 在 读 取 训 练 实例 时 简化 
一 些 和 常用 任务 。 我 们 会 介绍 几 个 〈 详 见 API 文 档 ) 。 


string_input_producer 〈) 采用 一 个 包含 文件 名 列表 的 一 维 张 量 ， 创 
建 一 个 线程 一 次 存 入 一 个 文件 名 到 文件 名 队列 中 ， 然 后 关闭 队列 。 如 果 
你 指定 了 一 些 全 数据 集 ， 它 会 在 关闭 队列 之 前 在 每 个 全 数据 集 轮 询 一 次 
文件 名 。 默 认 情 况 下 ， 它 会 在 每 个 全 数据 集 处 理 文件 名 。 它 创建 一 个 
QueueRunner 来 管理 它 的 线程 ， 并 且 把 它 加 在 
GraphKeys.QUEUE_RUNNERS 集 合 中 。 要 在 集合 中 开启 每 一 个 
QueueRunner， 你 可 以 调用 tt.train.start_queue_runners 〈) 方法 。 注 意 如 





果 你 忘 了 启动 QueueRunner， 文 件 名 队列 会 以 空 值 打开 ， 同 时 你 的 reader 
就 会 被 一 直 阻 塞 。 
还 有 一 些 其 他 的 producer 方 法 ， 同 样 是 创建 一 个 队列 和 一 个 对 应 的 


QueueRunner 来 运行 入 队 操 作 (比如 input_producer () 、 
range_input_producer () 和 slice input producer () ) 。 


shuffle_batch 〈() 方法 采用 了 张 量 列表 (如 [features，target]) 、 并 
有 创建 了 : 


.一 个 RandomShuffleQueue 


一 个 QueueRunner 将 张 量 存 入 队列 《加 入 
GraphKeys.QUEUE_RUNNERS 集 合 ) 


一 个 dequeue_many 操 作 从 队列 中 取出 一 个 小 批量 


这 使 得 在 独立 进程 中 管理 多 线程 输入 管道 存 入 队列 和 训练 管道 从 队 
列 中 读 取 小 批量 都 变 得 很 方便 。 提 供 类 似 功能 的 方法 还 有 batch () 、 
batch_join 〈) 和 shuffle_batch_ join 〈) 。 


现在 你 有 了 所 有 需要 的 工具 ， 可 以 在 TensorFlow 的 集群 上 多 个 设备 
和 服务 器 间 进 行 高 效 训练 和 运行 神经 网 络 了。 我 们 来 看 看 你 都 学 到 了 什 
么 : 








.使 用 多 GPU 设备 

设置 和 启动 一 个 TensorFlow 集 群 

` 跨 设备 和 服务 器 分 布 式 计算 

利用 容器 跨 会 话 共享 变量 (及 其 他 状态 化 操作 ， 比 如 队列 和 


reader) 
-利用 队列 异步 协调 多 图 工作 
“有效 利 用 reader、 队 列 runner 和 协调 器 读 取 输 入 
现在 让 我 们 使 用 所 有 这 些 来 并 行 化 神经 网 络 ! 


[1 甚至 可 以 在 同一 个 进程 中 开局 多 个 任务 。 在 测试 中 可 能 有 用 ， 但 产 
品 环境 并 不 推荐 。 

[2] 这 是 Google 内 部 Stubby 服 务 的 下 一 个 版 本 ，Google 已 经 成 功 使 用 了 十 
多 年 ， 详 见 http:/grpc.io/。 





在 TensorFlow 和 集群 上 并 行 化 神经 网 络 


本 节 首 先头 注 将 多 个 神经 网 络 分 别 放置 在 不 同 的 设备 上 的 情况 下 ， 
如 何 并 行 化 几 个 神经 网 络 。 接 着 会 研究 更 复杂 的 问题 ， 即 训练 一 个 跨 设 
备 和 服务 器 的 单个 神经 网 络 。 


- 台 设 备 一 个 神经 网 络 


在 TensorFlow 集 群 上 训练 和 运行 神经 网 络 最 简单 的 方法 就 是 在 单个 
机 器 上 使 用 和 在 单个 设备 完全 同样 的 代码 ， 并 在 创建 会 话 时 指定 主 服务 
器 的 地 址 。 就 是 这 样 你 的 代码 会 在 服务 器 默认 的 设备 上 运行 。 你 可 以 将 
代码 构建 部 分 放 在 一 个 设备 块 中 ， 这 样 束 可 以 改变 运行 图 形 的 设备 了 。 


通过 并 行 几 个 服务 端 会 话 《〈 在 不 同 线程 或 不 同 进程 中 ) ， 将 它们 连 
接 到 不 同 服务 器 ， 并 且 将 其 配置 到 不 同 设备 ， 你 就 可 以 方便 地 在 集群 中 
( 见 图 12-11〉 跨 设备 跨 服务 器 来 并 行 训练 或 者 运行 多 个 神经 网 络 。 加 
速 几 乎 是 线性 的 。 山 在 50 个 有 2 个 GPU 的 服务 器 上 训练 100 个 神经 网 络 ， 

不 会 比 在 1 个 GPU 上 训练 1 个 神经 网 络 所 花费 的 时 间 长 。 
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图 12-11: 在 一 个 设备 上 训练 一 个 神经 网 络 


这 个 方案 对 微调 超 参 数 非常 完美 : 集群 中 的 每 一 个 设备 都 会 用 其 自 
己 的 超 参数 训练 一 个 不 同 的 模型 。 你 所 拥有 的 计算 能 力 越 大 ， 你 可 以 探 
索 的 超 参 数 范围 就 越 大 。 


如 果 你 托管 一 个 接收 大 量 每 秒 碍 询 数 CQPS) 的 网 络 服务 ， 并 且 对 
于 每 一 次 查询 你 都 需要 神经 网 络 做 出 预测 ， 那 么 这 种 方案 也 会 工作 得 非 
常 好 。 简 单 地 在 集群 中 所 有 设备 上 复制 神经 网 络 ， 并 在 所 有 设备 上 进行 
查询 。 通 过 增加 服务 器 ， 你 可 以 处 理 无 限 数量 的 QPS《〈 然 而 ， 这 并 不 会 
降低 处 理 单个 请 求 的 时 间 ， 因 为 它 仍 然 需要 等 待 神经 网 络 进行 预测 ) 。 


Ms 一 种 方案 是 用 TensorFlow Serving 来 服务 你 的 神经 网 络 。 这 是 
一 个 开源 系统 ， 由 Google 在 2016 年 2 月 发 布 ， 则 在 为 机 器 学 习 模 型 〈 特 
别 是 通过 TensorFlow 构 建 的 ) 提供 高 速率 的 查询 。 它 可 以 处 理 模型 ， 所 
以 你 可 以 很 方便 地 在 产品 环境 中 部 署 新 的 网 络 版 本 ， 或 者 在 无 须 中 断 服 
务 的 情况 下 测试 不 同 的 算法 ， 同 时 通过 添加 服务 器 来 承载 高 负载 。 详 见 
https://tensorflow.github.io/serving/。 








图 内 与 图 间 复 制 


你 还 可 以 通过 在 不 同 设备 上 部 区 神 经 网 络 的 方法 来 针对 大 型 神经 网 
络 集合 体 进行 并 行 训练 〈 第 7 章 介 绍 过 集合 体 ) 。 然 而 ， 一 旦 你 想 运 行 
集合 体 ， 你 需要 汇总 每 一 个 神经 网 络 的 预测 ， 从 而 得 到 集合 体 的 预测 ， 
而 这 些 工作 需要 协调 。 


有 两 种 主要 的 方法 来 处 理 神经 网 络 集合 体 〈 或 者 其 他 包 舍 大 量 独 立 
运算 的 图 形 ) : 


你 可 以 创建 一 个 大 图 ， 包 含 每 一 个 神经 网 络 ， 分 别 分 配 在 不 同 的 
设备 上 ， 加 上 从 所 有 神经 网 络 汇总 的 独立 预测 所 需 的 计算 《〈 见 图 12- 
12) 。 之 后 你 只 需 在 集群 中 的 任 一 服务 器 上 创建 一 个 会 话 并 让 其 负责 所 
人 

人 。 
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图 12-12: 图 内 拷贝 


或者， 你 可 以 为 每 一 个 神经 网 络 创建 一 个 独立 的 图 ， 并 自己 处 理 
这 些 图 之 间 的 同步 。 这 种 方法 成 为 图 间 找 贝 。 一 种 典型 的 实现 方式 是 利 
用 队列 来 协调 这 些 图 的 操作 《〈 见 图 12-13) 。 一 组 客户 端 处 理 一 个 神经 


网 络 ， 从 其 专用 输入 队列 进行 读 取 ， 且 写 入 其 专用 预测 队列 。 男 一 个 客 
户 端 负责 该 取 输 入 和 将 其 存 入 所 有 输入 队列 《将 所 有 输入 复制 到 每 一 个 
队列 ) 。 最 后 一 个 客户 问 负 贡 从 每 一 个 预测 队列 中 读 取 一 个 预测 并 汇总 
它们 来 生成 集合 体 的 预测 。 











图 12-13: 图 间 找 贝 
这 些 方法 各 有 优 缺 点 。 由 于 你 不 需要 管理 多 个 客户 端 和 队列 ， 因 








此 ， 图 内 拷贝 更 容易 实现 。 然 而 ， 图 间 找 贝 更 容易 组 织 到 有 界 和 易 测 试 
模块 中 。 另 外 ， 它 也 更 灵活 。 举 个 例子 ， 你 可 以 在 汇总 客户 端 加 一 个 出 
队 超时 ， 这 样 集合 体 就 不 会 因为 东 一 个 神经 网 络 客户 端 良 误 或 者 神经 网 
络 花费 太 长 时 间 进 行 预测 而 出 错 。TensorFlow 在 通过 传 RunOptions 调 用 
run《〈) 方法 时 可 以 设置 超时 ， 其 中 RunOptions 的 值 为 timeout_in_ms: 











with tf.Session([...]) as sess: 


[...] 
run_options = tf.RuNOptions() 
run_options ,timeout_in_ms = 1000 # 1s timeout 
try: 
pred = sess.run(dequeue_ prediction, options=run_options) 
except tf.errors.DeadlineExceededError as ex: 
[...] # the dequeue operation timed out after 1s 





另外 一 种 指定 超时 的 方式 是 设置 会 话 的 operation_timeout_in_ms 配 
置 选 项 ， 但 在 这 种 情况 下 ， 只 要 任 一 操作 超过 超时 时 延 rn 〈) 方法 就 
会 超时 : 





config = tf.ConfigProto( ) 
config,.operation _ timeout_in ms = 1000 # 1s timeout for every operation 


with tf,.Session([...], config=config) as sess: 


try: 
pred = sess.run(dequeue_prediction) 
except tf.errors.DeadlineExceededError as ex: 
[...] # the dequeue operation timed out after 1s 





模型 并 行 化 


到 目前 为 止 ， 我 们 已 经 在 一 个 单独 设备 上 运行 了 神经 网 络 。 如 果 我 
们 而 望 在 多 个 设备 上 运行 一 个 单独 的 神经 网 络 呢 ? 这 就 需要 将 模型 分 为 
不 同 的 块 ， 并 在 不 同 设备 上 运行 。 这 航 称 为 模型 并 行 化 。 不 和 羊 的 是 ， 模 
型 并 行 化 非常 复杂 ， 并 且 依 赖 于 神经 网 络 的 架构 。 对 于 全 连接 网 络 ， 这 
种 方式 一 般 不 会 获得 什么 〈 见 图 12-14) 。 直 观 来 看 ， 这 可 能 是 一 个 简 
单方 法 来 进行 模型 分 割 ， 即 将 每 一 层 都 放置 在 一 个 不 同 的 设备 上 ， 但 是 
这 样 义 会 因为 每 一 层 痢 需要 等 前 一 层 的 输出 而 导致 不 能 工作 。 所 以 或 许 
你 可 以 垂直 切割 模型 一 一 举 个 例子 ， 将 每 一 层 的 左 半 部 分 分 配 到 一 台 设 
备 上 ， 右 半 部 分 分 配 到 另 一 台 设 备 上 《 见 图 12-15) 。 这 样 会 稍微 好 一 
些 ， 因 为 每 一 层 的 两 部 分 的 确 可 以 并 行 工作 ， 但 是 存在 的 问题 是 下 一 层 
的 每 一 半 都 需要 两 部 分 的 输出 ， 所 以 束 会 出 现 很 多 跨 设 备 通信 (用 虚线 
箭头 连接 ) 。 这 样 殴 完全 抵消 了 并 行 运算 的 好 处 ， 因 为 路 设备 通信 非常 
慢 (特别 是 在 不 同 机 器 上 〉。 

不 过 ， 正 如 我 们 在 第 13 间 将 要 看 到 的 ， 有 些 神经 网 络 架构 ， 比 如 卷 


积 神 经 网 络 ， 它 包含 仅 部 分 连接 到 较 低 层 的 层 ， 所 以 它 就 可 以 比较 容易 
地 路 设备 来 分 配 块 。 
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图 12-14: 切割 一 个 全 连接 的 神经 网 络 
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图 12-15: 切割 一 个 部 分 连接 的 神经 网 络 














此 外 ， 在 第 14 章 会 讲 到 ， 一 些 深度 循环 神经 网 络 是 由 儿 层 记忆 单元 
( 见 图 12-16 左 侧 〉 组 成 的 。 一 个 单元 在 时 刻 t 的 输出 会 作为 在 时 刻 t+1 的 
输入 《 详 见 图 12-16 右 侧 ) 。 如 果 你 沿 水 平方 向 切割 这 个 网 络 ， 将 每 一 
层 分 配 到 不 同 的 设备 上 ， 然 后 在 第 一 步 只 激活 一 个 设备 ， 第 二 步 激活 两 








个 ， 当 信号 传播 到 输出 层 时 ， 所 有 设备 会 同时 被 激活 。 这 样 仍然 会 存在 
大 量 路 设备 通信 ， 但 是 因为 每 个 单元 都 非常 复杂 ， 所 以 并 行 运行 多 个 单 
元 的 好 处 会 大 于 通信 的 消耗 。 

简 而 言 之 ， 模 型 并 行 化 可 以 提高 运行 或 者 训练 某 些 类 型 神经 网 络 的 
速度 ， 但 不 是 全 部 ， 而 且 它 需要 特别 关注 和 调整 ， 比 如 确保 需要 频繁 通 
信 的 设备 要 运行 在 同一 机 器 上 。 


数据 并 行 化 





男 一 种 并 行 训练 神经 网 络 的 方法 是 在 每 一 台 设 备 上 进行 拷贝 ， 在 每 
一 个 副本 上 同时 运行 训练 步 又 ， 使 用 不 同 的 小 批量 ， 然 后 汇总 梯度 来 更 
新 模型 参数 。 这 被 称 为 数据 并 行 化 〈 见 图 12-17〉。 
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图 12-16: 切割 一 个 深度 循环 神经 网 络 





四 


加 四 


图 12-17: 数据 并 行 化 
这 种 方法 有 两 种 形式 : 同步 更 新 和 异步 更 新 。 
同步 更 新 





使 用 同步 更 新 ， 聚 合 需 需要 在 计算 平均 值 并 使 用 结果 《〈“ 如 使 用 汇总 
梯度 更 新 模型 参数 ) 之 前 等 待 所 有 梯度 可 用 。 一 旦 副本 完成 梯度 计算 ， 
它 必 须 等 到 参数 更 新 完 之 后 才 可 以 进行 下 一 个 小 批量 。 缺 点 是 有 些 设备 
可 能 比 其 他 的 设备 慢 ， 所 以 其 他 设备 就 必须 每 一 步 都 等 待 。 另 外 ， 参 数 
几乎 是 同时 复制 到 每 一 个 设备 的 《梯度 应 用 完 之 后 立刻 复制 ) ， 这 样 可 
能 会 造成 参数 服务 器 的 带宽 饱和 。 











度 。 举 个 例子 ， 你 可 以 运行 20 个 副本 ,但 是 每 一 步 只 汇总 最 快 的 18 个 副 





本 ， 直 接 忽略 最 后 2 个 的 梯度 。 一 旦 参数 被 更 新 ， 最 快 的 18 个 副本 就 可 
以 立刻 开始 重新 工作 ， 而 不 用 等 那 2 个 最 慢 的 副本 。 这 种 设置 通常 被 称 
为 18 个 副本 加 2 个 备用 副本 。 巴 


异步 更 新 


使 用 异步 更 新 ， 每 当 副 本 完成 梯度 计算 ， 就 会 立刻 更 新 模型 参数 。 
这 里 没有 汇总 〈 去 掉 图 12-17 的 “平均 ”步骤 ) ， 也 没有 同步 。 副 本 之 间 
工作 是 独立 的 。 因 为 不 需要 等 待 其 他 副本 ， 这 种 方式 每 分 钟 会 运行 更 多 
训练 步骤 。 另 外， 尽管 每 一 步 还 需要 将 参数 找 贝 到 每 一 个 设备 上 ， 但 是 
对 于 每 一 个 副本 及 生 的 时 间 是 不 一 样 的 ， 所 以 降低 了 融 宽 饱和 的 风险 。 


异步 更 新 的 数据 并 行 化 是 一 个 有 吸引 力 的 选择 ， 因 为 它 很 简单 ， 没 
有 同步 延迟 ， 同 时 更 好 地 利用 了 融 宽 。 然 而 ， 尽 管 在 实验 中 表现 得 很 
好 ， 但 是 实际 的 结果 还 是 很 让 人 惊讶 的 ! 事实 上， 副本 根据 一 些 参数 值 
完成 运算 ， 这 些 参数 就 会 被 其 他 副本 更 新 好 几 次 《假设 N 个 副本 ， 平 均 
就 会 有 N-1 次 更 新 ) ， 而 且 没 办 法 保证 计算 出 的 梯度 会 始终 指 问 正确 方 
问 〈《 见 图 12-18) 。 当 梯度 严重 过 期 时 ， 会 被 称 为 过 期 梯度 : 它们 会 减 
慢 收敛 速 度 ， 引 入 噪声 和 摆动 效应 《学习 曲 线 可 能 包含 临时 振荡 ) ， 其 
至 会 导致 训练 算法 发 散 。 
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吕 、 可 二 桓 立 / 
通过 其 他 副本 更 新 过 期 梯度 








图 12-18: 使 用 异步 更 新 时 的 过 期 标 度 
下 面 有 儿 种 方法 来 降低 过 期 梯度 的 影响 : 
降低 学 习 速 率 。 
丢弃 过 期 梯度 或 者 降低 。 
调整 小 批量 大 小 。 
最 开始 的 几 个 全 数据 集 只 使 用 一 个 副本 《这 个 称 为 热 号 阶段 ) 。 


过 期 梯度 一 般 在 训练 开始 时 影响 比较 大 ， 那 时 梯度 比较 大 且 参 数 还 未 落 


0 ， 所 以 不 同 的 副本 可 能 会 从 相差 比较 大 的 方 辐 上 影响 








Google ”Brain 团 队 在 2016 年 4 月 发 表 的 论文 (http://goo.g/9GCiPb) 
中 对 多 种 方法 进行 了 基准 测试 ， 发 现 使 用 几 个 备用 副本 的 同步 更 新 数据 
并 行 化 是 最 有 效 的 ， 不 仅 收 和 敛 速度 更 快 而 且 产生 的 模型 更 好 。 然 而 ， 这 
仍然 是 一 个 很 热门 的 研究 区 域 ， 所 以 你 不 应 该 将 异步 更 新 排除 出 去 。 





带宽 饱和 


无 论 使 用 同步 还 是 异步 更 新 ， 数 据 并 行 化 仍然 需要 在 每 一 个 训练 步 
又 的 开始 阶段 ， 从 参数 服务 器 将 模型 参数 传递 给 每 一 个 副本 ， 并 在 训练 
步骤 的 结束 阶段 回 另 一 个 方 癌 传递 梯度 。 不 幸 的 是 ， 这 就 意味 痢 ， 还 加 
额外 的 GPU 也 不 会 改善 性 能 ， 因 为 将 数据 从 GPU RAM (并 且 可 能 跨 网 
络 ) 传 入 传 出 所 花 的 时 间 超 过 了 通过 分 割 运算 负载 所 获得 的 增 速 。 在 这 
一 点 上 ， 增 加 更 多 的 GPU 只 会 加 速 饱 和 并 减 慢 训练 速度 。 











名 对 于 某 些 模型 特别 是 相对 比较 小 并 且 在 一 个 非常 大 的 训练 集 
上 上 进行 训练 的 模型 ， 你 最 好 在 使 用 单个 GPU 的 单机 器 上 进行 训练 。 


大 密度 模型 的 饱和 情况 更 严重 ， 因 为 它们 有 大 量 参数 和 梯度 要 传 
输 。 小 模型 〈 但 是 并 行 化 获得 的 效益 也 少 ) 和 大 型 稀疏 模型 ， 因 为 梯度 
基本 为 0， 所 以 可 以 进行 有 效 通 信 ， 饱 和 情况 就 不 严重 。Jeff 
Dean (Google Brain 团 队 的 发 起 人 兼 首席 ) ， 提 出 
Chttp:/goo.gIME4ypxo) 当 针 对 密度 模型 跨 50 个 GPU 进行 分 布 式 计算 
时 ， 典 型 提速 25~40 倍 ， 跨 500 个 GPU 训 练 的 稀疏 模型 提速 300 倍 。 正 如 
你 所 看 到 的 ， 稀 跑 模型 的 确 表现 更 出 色 。 下 面 有 几 个 具体 的 例子 : 


.神经 机 器 翻译 : 8 个 GPU， 提 速 6 倍 








.Inception/ImageNet: 50 个 GPU， 提 速 32 倍 

:RankBrain: 500 个 GPU， 提 速 300 倍 

这 些 数据 代表 了 2016 年 第 一 季度 的 最 新 技术 。 当 密集 模型 超过 几 十 
个 GPU 或 者 稀 下 模 型 超过 几 百 个 GPU 时 ， 饱 和 现象 会 出 现 并 且 性 能 
降 。 后 续 还 有 很 多 研究 来 解雇 这 个 问题 〈 探 索 点 对 点 架构 而 不 是 集中 式 
参数 服务 器 ， 使 用 有 损 模 型 压 内 ， 优 化 需要 通信 的 副本 时 间 和 内 容 ， 等 
等 ) ， 所 以 在 未 来 几 年 并 行 化 神经 网 络 可 能 会 有 长 足 的 进步 。 

在 此 期 间 ， 下 面 有 几 个 简单 的 步骤 帮助 你 减少 饱和 问题 : 


将 GPU 分 组 在 几 个 服务 器 上 ， 而 不 是 分 散在 多 个 服务 器 上 。 这 样 
可 以 避免 不 必要 的 网 络 跳 数 。 


在 多 个 参数 服务 器 间 分 片 参数 〈 如 之 前 所 述 ) 。 








:将 模型 参数 的 浮 点 精度 从 32 位 (tf.float32〉 降低 到 16 位 
(tf.float16) 。 这 样 会 将 传输 数据 的 数量 减 半 ， 但 不 太 会 影响 收敛 速度 
或 者 模型 性 能 。 





钦 忌 管 16 位 精度 是 训 夭 神经 网 络 的 最 低 值 ， 你 仍然 可 以 在 训练 后 
降低 到 8 位 精度 来 减 小 模型 的 大 小 和 加 快运 算 速 度 。 这 被 称 为 量化 神经 
网 络 。 它 对 于 在 手机 上 部 署 和 运行 预 训练 模型 非常 有 用 。 详 见 Pete 
Warden 关 于 这 个 主题 的 文章 (http://goo.g//09Cb6v) 。 


TensorFlow 实 现 


使 用 TensorFlow 来 实现 数据 并 行 化 ， 首 先 要 确定 选择 图 内 拷贝 还 是 
图 间 找 贝 ， 以 及 需要 同步 更 新 还 是 异步 更 新 。 一 起 来 看 一 下 如 何 实现 每 
一 种 组 合 (参见 练习 和 Jupyter 笔 记 中 的 完整 代码 示例 )〉。 


使 用 图 内 拷贝 + 同步 更 新 ， 你 要 创建 一 个 包含 所 有 模型 副本 分 布 
在 不 同 设备 上 ) 的 大 图 ， 同 时 几 个 节点 来 汇总 所 有 梯度 ， 并 将 其 赋予 一 
个 优化 器 。 在 集群 中 创建 一 个 会 话 ， 然 后 重复 运行 训练 操作 即 可 。 


使 用 图 内 拷贝 + 异步 更 新 ， 同 样 要 创建 一 个 大 图 ， 但 是 每 一 个 副本 
有 一 个 优化 器 ， 同 时 给 每 一 个 副本 运行 一 个 线程 ， 重 复 运 行 副本 的 优化 
器 。 




















使 用 图 间 找 贝 + 异步 更 新 ， 运 行 多 个 独立 客户 端 〈 在 不 同 的 进 
程 ) ， 每 个 训练 模型 副本 看 上 去 是 独立 的 ， 但 其 实 参数 是 共 吾 的 《使 用 


使 用 图 间 拷 贝 + 同 步 更 新 ， 同 样 ， 运 行 多 个 客户 端 ， 每 个 客户 端 都 
会 根据 共享 参数 对 模型 副本 进行 训练 ， 但 此 时 你 可 以 在 
SyncReplicasOptimizer 中 封装 优化 问 《〈 即 MomentumOptimizer) 。 每 个 
副本 像 使 用 其 他 优化 器 一 样 使 用 这 个 优化 器 ， 但 是 在 后 台 ， 这 个 优化 器 
会 将 梯度 传 给 一 组 队列 (每 个 变量 一 个 ) ， 副 本 的 一 个 SyncReplicas 
Optimizer 会 去 读 取 这 个 队列 ， 它 被 称 为 chief。chief 汇 总 梯度 并 使 用 它 
们 ， 然 后 给 每 个 副本 的 令 牌 队列 里 写 入 一 个 令 牌 ， 表 明和 它 可 以 继续 并 运 
算 下 一 个 梯度 。 这 个 方法 文 持 备用 副本 。 














如 果 你 完成 练习 ， 你 可 以 分 别 实现 这 四 种 方式 。 你 可 以 很 容易 地 应 
用 所 学 来 训练 跨 数 十 个 服务 器 和 GPU 的 大 型 深度 神经 网 络 ! 在 之 后 的 章 
节 中 ， 我 们 会 在 处 理 强 化 学 习 之 前 先 学 习 几 个 更 重要 的 神经 网 络 架 构 。 





由] 如 果 等 到 所 有 设备 部 结束 ， 束 不 是 100% 线 性 ， 因 为 整体 时 间 是 最 慢 
的 设备 所 花费 的 时 间 。 

[2] 这 个 名 称 可 能 有 点 混乱 ， 因 为 听 上 去 像 是 一 些 副 本 很 特殊 ， 什 么 都 
不 做 。 事 实 上 ， 上 所 有 副本 都 是 一 样 的 : 它们 都 努力 成 为 每 个 训练 步骤 中 
最 快 的 ， 输 家 在 每 一 步 都 不 一 样 〈 除 非 有 些 设备 是 真 的 比 其 他 设备 


慢 ) 。 





练习 


1. 如 果 在 你 启动 TensorFlow 程 序 时 得 到 一 个 
CUDA_ERROR_OUT_OF_ MEMORY 报警 ， 那 可 能 发 生 了 什么 ? 你 该 怎 
么 办 ? 


2. 固 定 一 个 操作 在 一 台 设 备 上 和 放置 一 个 操作 在 一 台 设 备 上 有 什么 
\ 同 2 


3. 如 果 你 正在 运行 一 个 支持 GPU 的 TensorFlow 安 装 程序 ， 并 且 使 用 
默认 放置 ， 那 么 所 有 操作 会 放置 在 第 一 个 GPU 上 吗 ? 


4. 如 果 你 在 "/gpu: 0" 固 定 一 个 变量 ， 那 么 放置 在 "/gpu: 1" 上 的 操作 
可 以 使 用 这 个 变量 吗 ? 或 者 是 放置 在 "Vcpu: 0" 上 的 操作 呢 ? 或 者 是 固定 
在 位 于 其 他 服务 器 的 设备 上 的 操作 呢 ? 


5. 放 置 在 同一 设备 的 两 个 操作 可 以 并 行 运行 吗 ? 
6. 什 么 是 控制 依赖 ， 什 么 时 候 需要 使 用 它 ? 


7. 假 设 你 在 一 个 TensorFlow 集 群 上 训练 了 一 个 DNN 好 几 天 ， 就 在 快 
要 结束 的 时 候 ， 你 突然 意识 到 你 筷 了 用 Saver 存 储 模 型 。 那 么 你 的 训练 
模型 会 丢失 吗 ? 


8. 在 一 个 TensorFlow 集 群 中 使 用 不 同 的 超 参 数值 来 并 行 训 练 几 个 
DNN。 这 可 能 是 MNIST 分 类 的 DNN 或 者 其 他 你 感 兴 趣 的 任务 。 最 简单 
的 方式 是 写 单个 客户 端 程序 仅 用 来 训练 一 个 DNN， 然 后 针对 不 同 客户 端 
使 用 不 同 的 超 参 数值 并 行 在 多 个 进程 中 运行 这 个 程序 。 程 序 会 有 命令 行 
选项 来 控制 在 哪 一 台 服 务 器 和 设备 上 放置 DNN， 以 及 使 用 什么 资源 容器 
和 超 参 数值 〈 确 保 每 个 DNN 使 用 不 同 的 资源 容器 ) 。 使 用 验证 集成 交叉 
验证 来 选择 排列 前 三 的 模型 。 

9. 使 用 前 一 个 练习 的 三 个 模型 构建 一 个 集合 体 。 定 义 它 为 一 个 单独 
图 ， 确 保 每 一 个 DNN 运 行 在 一 个 不 同 的 设备 上 。 用 验证 集 来 评估 它 : 是 
不 是 集合 体 的 性 能 比 独立 的 DNN 好 ? 


10. 用 图 间 找 贝 训练 一 个 DNN， 用 异步 更 新 来 完成 数据 并 行 化 ， 记 








录 到 达 满 意 性 能 的 时 间 。 然 后 ， 使 用 同步 更 新 再 试 一 次 。 是 不 是 同步 更 
新 产 出 的 模型 更 好 ?训练 速度 更 快 ?垂直 分 割 DNN 并 且 分 别 放 置 在 不 同 
的 设备 上 ， 再 训练 一 次 模型 。 训 练 速度 加 快 了 吗 ? 性 能 有 什么 变化 ? 


练习 的 解决 方案 详 见 附录 A。 


第 13 章 ” 卷 积 神经 网 络 


虽然 时 在 1996 年 IMB 的 深 复 计算 机 就 击败 了 世界 围棋 冠军 加 里 . 卡 
斯 帕 罗 夫 (Garry Kasparov) ， 但 是 直到 现在 为 止 ， 计 算 机 也 很 难 完 成 
一 些 看 似 很 简单 的 任务 ， 比 如 检测 出 图 厂 中 小 狗 或 者 识别 语言 。 为 什么 
这 些 工 作 在 我 们 人 类 看 来 又 不 费力 呢 ? 管 案 是 ， 感 知 主要 发 生 在 我 们 的 
意识 之 外 ， 在 大 脑 专门 的 视觉 、 听 党 和 其 他 感官 模块 中 。 当 感知 信息 到 
达意 识 时 ， 它 已 经 被 高 层次 的 特征 修饰 过 了 。 举 个 例子 ， 当 你 看 见 一 张 
可 爱 的 小 狗 的 照片 时 ， 你 不 能 选择 不 看 小 狗 ， 或 者 忽视 它 的 可 爱 。 你 不 
能 解释 你 是 如 何 识别 一 只 可 爱 的 小 狗 ， 这 对 你 来 说 只 是 显而易见 的 事 
情 。 所 以 ， 不 能 相信 我 们 的 主观 经 验 : 感知 根本 不 是 微不足道 的 事情 。 
要 了 解 它 ， 我 们 必须 着眼 于 感知 模块 是 如 何 运作 的 。 


卷 积 神经 网 络 CCNN ) 起源 于 对 大 脑 的 视觉 皮层 的 研究 ， 从 20 世 纪 
80 年 代 起 被 用 于 图 像 识 别 。 在 过 去 几 年 中 ， 由 于 计算 机 计算 能 力 提高 ， 
可 用 训练 数据 数量 的 增加 ， 以 及 第 11 章 提 到 的 用 于 深度 网 络 训 练 技巧 的 
增加 ，CNN 已 经 在 一 些 复杂 的 视觉 任务 中 实现 了 超人 性 化 ， 广 泛 用 于 图 
片 搜 索 服 务 、 上 自动 驾驶 汽车 、 上 自动 视频 分 类 系统 等 。 此 外 ， 不 局 限于 视 
觉 感 知 ，CNN 也 成 功用 于 其 他 任务 ， 比 如 : 语音 识别 或 自然 语言 处 理 
CNLP) 。 然 而 ， 我 们 现在 将 专注 于 视觉 应 用 。 


在 本 章 ， 我 们 首先 介绍 CNN 从 哪里 来 ， 它 的 构建 模块 是 怎样 的 ， 以 
及 如 何 使 用 TensorFlow 实 现 它 。 然 后 介绍 一 些 比较 好 的 CNN 架 构 。 





























视觉 皮层 的 组 织 结构 


David H.Hubel 和 Torsten Wiesel 在 1958 (http://goo.g/VLxXf9) 出 年 
和 1959 (http://goo.gL/JOYuFUZ) 纪年 利用 猫 做 了 一 系列 实验 (在 随后 的 
几 年 也 又 利用 猴子 做 过 实验 (http://goo.gV95F7QH) 屋 ) ， 对 视觉 皮层 
的 结构 提出 了 重要 见解 (该 成 果 使 得 作者 获得 了 1981 年 的 诺 贝 尔 生 理学 
和 医学 奖 ) 。 男 外 ， 他 们 指出 视觉 皮层 神经 元 有 一 个 小 的 局 部 接受 时 
(receptive field) ， 这 就 意味 着 它们 只 对 视野 的 局 部 区 域内 的 视觉 刺激 
做 出 反应 〈 见 图 13-1， 其 中 五 个 虚线 圆圈 代表 局 部 接受 野 ) 。 不 同 神经 
元 的 接受 野 有 可 能 会 重复 ， 它 们 一 起 平 铺 在 整个 视觉 区 域 。 此 外 ， 他 们 
指出 一 些 神经 元 作用 于 图 片 的 水 平方 向 ， 而 另 一 些 神经 元 作用 于 其 他 方 
向 《两 个 神经 元 可 能 有 相同 的 接受 野 ， 但 是 作用 于 不 同方 向 。) 他 们 也 
注意 到 有 些 神经 元 有 比较 大 的 接受 野 ， 他 们 作用 于 由 多 个 低 阶 模式 组 成 
的 复杂 模式 。 这 个 发 现 可 以 推测 出 ， 高 阶 神 经 元 是 基于 相 邻 的 低 阶 神经 
元 的 输出 〈 见 图 13-1， 每 个 神经 元 只 跟 上 一 层 的 少数 神经 元 连接 ) 。 这 
种 强大 的 组 织 结构 可 以 检测 到 视觉 区 域内 的 所 有 复杂 模式 。 























图 13-1: 视觉 皮层 中 的 局 部 接受 野 


这 些 关 于 视觉 皮层 的 研究 影响 了 1980 年 引入 的 新 认 知 机 
(Chttp:/goo.gl/XwiXs9) ， 凶 然后 逐步 演变 成 我 们 说 的 卷 积 神经 网 络 。 
一 个 重要 的 里 程 碑 是 Yann LeCun、Léon Bottou、Yoshua Bengio 和 Patrick 
Haffner 等 人 发 表 于 1998 年 的 论文 (http:/goo.gI/A347S4) 与。 该 论文 介 





绍 了 广泛 用 于 识别 手写 文 标号 码 的 著名 LeNet-5 架 构 。 该 架构 除了 一 些 
广为人知 的 构建 块 (building blocks) ， 例 如 全 连接 层 〈fully connected 
layers) 和 S 形 激活 函数 〈sigmoid activation functions) ， 还 引入 了 两 个 
新 的 构建 块 : 卷 积 层 (convolutional layers) 和 池 化 层 (pooling 
layers 〉。 我 们 现在 就 开始 学 习 它 们 吧 。 


办 为 什么 我 们 不 简单 地 使 用 常规 的 全 连接 层 深度 神经 网 络 进行 图 
像 识别 呢 ?” 很 遗憾 ， 尽 管 该 方法 对 小 图 片 〈 例 如 MNIST)》 可 以 正常 工 
作 ， 但 是 由 于 需要 海量 参数 ， 使 得 它 对 大 图 像 无 能 为 力 。 例 如 ， 一 副 
100x100 的 图 像 有 10000 像 素 ， 如 果 第 一 层 有 1000 个 神经 元 〈 这 个 数量 已 
经 严重 限制 了 传输 到 下 一 层 的 数据 量 ) ， 那 么 仅仅 第 一 层 束 有 1000 万 个 
连接 。CNN 使 用 部 分 连接 层 (partially connected layers) 解决 了 这 个 问 
是 |。 





[11 “Single Unit Activity in Striate Cortex of Unrestrained Cats”, D.Hubel 
和 T.Wiesel (1958) 。 

[2|] “Receptive Fields of Single Neurones in the Cat’s Striate Cortex”, 
D.Hubel 和 T.Wiesel (1959) 。 

[3] “Receptive Fields and Functional Architecture of Monkey Striate 
Cortex”，D.Hubel 和 T.Wiesel (1968) 。 

[4| “Neocognitron: A Self-organizing Neural Network Model for a 
Mechanism of Pattern Recognition Unaffected by Shift in Position”, 
K.Fukushima (1980) 。 

[5] “Gradient-Based Learning Applied to Document Recognition”, Y.LeCun 
等 人 (1998) 。 


苍 积 层 


CNN 的 最 重要 的 构建 块 是 卷 积 层 : 出 第 一 卷 积 层 的 6 个 神经 元 不 会 
连接 到 输入 图 像 中 的 每 个 像素 〈 如 前 文 所 述 ) ， 而 只 与 其 接受 野 内 的 像 
素 相 连接 《〈 见 图 13-2) 。 上 反 过 来 ， 第 二 卷 积 层 的 每 个 神经 元 仅 连接 到 位 
于 第 一 层 中 的 一 个 小 矩阵 内 的 神经 元 。 这 种 结构 允许 网 络 集中 在 第 一 个 
隐藏 层 的 低 阶 特征 中 ， 然 后 在 下 一 个 隐藏 层 中 将 它们 组 装 成 比较 高 阶 的 
特征 ， 等 等 。CNN 在 图 像 识别 方面 效果 很 好 的 原因 之 一 是 这 种 层次 结构 
在 现实 世界 的 图 像 中 很 常见 。 




















图 13-2: CNN 层 中 的 矩形 局 部 接受 野 


MamtfnL 我 们 看 到 的 多 层 神 经 网 络 都 有 由 长 神经 组 成 的 
层 ， 在 将 其 提供 给 神经 网 络 之 前 ， 我 们 必须 将 图 片 平 请 到 一 维 。 现 在 ， 
每 层 都 用 二 维 表示 ， 这 样 更 容易 将 神经 元 与 其 相应 的 输入 相 匹配 。 


位 于 给 定 层 i 行 、j 列 的 神经 元 ， 与 上 一 层 输出 中 位 于 i 到 i+fi-1 行 ，j 
到 j+fu-1 列 的 神经 元 相关 联 ， 其 中 各 和 fw 分 别 表示 接受 野 的 高 和 宽 〈 见 图 
13-3) 。 为 了 使 这 一 层 与 上 一 层 有 相同 的 高 和 宽 ， 通 常会 在 输入 周围 填 





充 零 ， 如 图 13-3 所 示 。 这 种 方式 称 为 零 填充 (zero padding) 。 





图 13-3: 层 与 零 填充 之 间 的 连接 


如 图 13-4 所 示 ， 可 以 通过 间隔 出 接受 野 的 方式 使 得 一 个 大 的 输入 层 
连接 到 更 小 的 层 。 两 个 连续 的 接受 野 之 间 的 距离 叫 作 步 幅 。 在 该 图 中 ， 
一 个 5x7 的 输入 层 〈 加 上 和 零 填充 ) 连接 到 一 个 3x4 层 ， 使 用 3x3 接 受 野 ， 
步 幅 为 2 在 本 例 中 ， 各 个 方 辐 的 步 幅 相同 ， 但 它 也 可 以 不 相同 ) 。 位 
于 上 一 层 i 行 ，j 列 的 神经 元 与 下 层 ixsh 到 ixsh+fh-1I 行 ，jxswtfw-1I 列 相连 
接 ， 其 中 sh 和 sw 分 别 代表 垂直 和 水 平方 癌 的 步 幅 。 
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图 13-4: 使 用 步 幅 降低 维度 


神经 元 的 权重 可 以 用 接受 野 大 小 表示 。 例 如 ， 图 13-5 显 示 了 两 个 可 
能 的 权重 集合 ， 被 称 为 过 滤器 《或 者 卷 积 内 核 ) 。 第 一 个 过 滤器 是 一 个 
中 间 有 入 直 白 线 的 黑色 正方 形 〈 它 是 一 个 7x7 的 矩阵 ， 中 间 竖 线 的 值 为 
1， 其 余 的 值 为 0) 。 使 用 该 权重 ， 神 经 元 将 忽略 接受 野 内 除了 垂直 日 线 
外 的 其 他 内 容 〈 因 为 ， 除 了 这 些 白 线 的 位 置 ， 其 他 输入 将 会 被 乘 以 
0) 。 第 二 个 过 滤器 是 一 个 中 间 有 水 平 白 线 的 黑色 正方 形 。 同 样 ， 使 用 
该 权重 ， 神 经 元 将 会 忽略 接受 野 内 除了 水 平日 线 外 的 其 他 内 容 。 


现在 ， 如 果 同 一 层 中 的 所 有 神经 元 都 使 用 垂直 线 过 滤器 《并 且 有 相 
同 的 偏差 系数 ) ， 并 且 给 网 络 输入 如 图 13-5 底 部 所 示 图 像 ， 那 么 该 层 的 
输出 将 如 左上 图 像 。 我 们 注意 到 ， 垂 直方 癌 的 白 线 得 到 增强 ， 其 余 方 回 
的 白 线 变 得 模糊 。 相 似 地 ， 右 上 图 像 是 所 有 神经 元 使 用 水 平 线 过 滤器 得 
到 的 结果 ， 其 水 平方 癌 的 日 线 得 到 增强 ， 其 他 方 癌 的 日 线 变 得 模糊 。 因 
此 ， 一 层 使 用 了 相同 过 滤器 的 神经 元 提供 给 我 们 一 个 特征 图 (feature 

















map) ， 其 中 与 过 滤器 特征 相似 的 部 分 得 到 强化 。 在 训练 过 程 中 ，CNN 
为 其 任务 找到 最 有 用 的 过 滤器 ， 并 且 学 习 将 它们 组 成 更 加 复杂 的 模式 
nn 
结 未 ) 。 





特征 图 1 | 特征 图 2 
a NN 


1 本 








图 13-5: 使 用 两 种 不 同 的 过 滤器 得 到 两 个 特征 图 
多 个 特征 图 的 琶 加 


到 目前 为 止 ， 为 了 简单 起 见 ， 我 们 使 用 一 个 薄 的 二 维 层 表 示 卷 积 
层 ， 但 是 实际 上 它 由 多 个 大 小 相同 的 特征 图 组 成 ， 所 以 使 用 三 维 来 表示 
更 加 准确 《〈 见 图 13-6) 。 在 同一 个 特征 图 中 ， 所 有 的 神经 元 具有 相同 的 
参数 权重 和 偏差 系数 ) ， 但 是 不 同 的 特征 图 可 能 有 不 同 的 参数 。 神 经 
元 接收 野 的 概念 与 前 文 所 述 相同 ， 但 是 它 要 延伸 到 前 面 所 有 层 的 特征 








图 。 简 而 言 之 ， 卷 积 层 同 时 对 其 输入 使 用 多 个 过 滤器 ， 使 之 能 够 检 训 到 
输入 的 多 个 特征 。 


Mrs 图 中 所 有 神经 元 共享 参数 能 够 显著 减 小 模型 中 的 参数 数 
量 ， 但 更 重要 的 是 ， 这 一 特性 意味 着 一 旦 CNN 学 会 了 识别 某 个 位 置 上 的 
菏 个 模式 ， 它 就 可 以 在 任何 地 方 识 别 该 模式 。 相 比 之 下 ， 传 统 的 DNN 学 
会 识别 某 个 位 置 上 的 从 个 模式 ， 它 只 能 在 特定 位 置 识别 该 模式 。 


此 外 ， 输 入 图 像 也 是 由 多 个 子 层 组 成 的 ， 每 个 颜色 通道 通常 有 三 种 
颜色 : 红 、 绿 、 芍 (RGB) 。 灰 度 图 通常 只 有 一 个 通道 ， 但 是 有 些 灰 度 
图 有 多 个 通道 ， 例 如 捕获 额外 光 频 如 红外 光 〉 的 卫星 图 像 。 
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图 13-6: 具有 多 个 特征 图 的 卷 积 层 和 具有 三 个 通道 的 图 像 
具体 来 说 ， 一 个 位 于 给 定 卷 积 层 ] 的 特征 图 k 上 的 i 行 j 列 的 神经 元 ， 
与 上 一 层 ]-1 的 神经 元 相连 接 ， 其 位 置 为 ixsw 到 ixsw+fw-1 行 ，jxsh 到 
jxsh+fh-1 列 ， 并 且 穿 过 1]-1 层 中 所 有 的 特征 图 。 注 意 ， 所 有 位 于 不 同 特征 
图 的 i 行 j 列 的 神经 元 都 连接 到 前 一 层 输出 中 完全 相同 的 神经 元 。 














公式 13-1 用 一 个 数学 方程 总 结 了 前 面 所 解释 的 内 容 : 它 显示 了 如 何 








计算 给 定神 经 元 的 输 出 。 由 于 各 种 下 标 ， 这 个 方程 看 起 来 有 点 临 梁 ， 但 
古 它 做 的 事情 仅仅 是 计算 所 有 输出 的 加 权 值 加 上 偏 置 参数 。 


公式 13-1: 计算 卷 积 层 中 神经 元 的 输出 


1 on a 
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zi, j，k 和 是 卷 积 层 《〈] 层 ) 的 特征 图 k 的 神经 元 在 行列 的 输出 。 


:如 上 所 述 ，sh 和 sw 分 别 是 水 平方 向 和 垂直 方向 的 步 幅 ， 和 和 fw 分 别 
是 接收 野 的 高 和 宽 ， 亿 是 上 一 层 (1 层 ) 的 特征 图 的 数量 。 

Xj, j,k 是 1-1 层 的 位 于 i 行列 的 特征 图 k'〈( 如 果 前 一 层 是 输入 层 ， 
那么 就 是 信道 k) 上 的 神经 元 的 输出 。 

bl 是 特征 图 k (1 层 ) 的 偏 置 参 数 。 你 可 以 认为 它 是 调整 特征 图 k 微 
调 亮度 的 旋钮 。 

ww wk 是 ] 层 中 的 任意 特征 图 k 和 它 位 于 特征 图 k 的 u 行 v 列 的 输 
入 之 间 的 连接 权重 。 








TensorFlow 实 现 


在 TensorFlow 中 ， 每 张 输 入 图 片 通 常 表 示 为 三 维 张 量 [height， 
width，channels]。 小 批 次 表示 为 四 维 张 量 [mini-batch size，height， 
width，channels]。 卷 积 层 的 形状 表示 为 四 维 张 量 [ff，f,,，fh，fh]。 卷 积 
层 的 偏 置 参数 简单 地 表示 为 一 维 张 量 [f]。 


来 看 一 个 例子 ，Scikit-Learn 的 load_sample_images () 函数 加 载 了 
两 个 简单 图 像 〈 两 张 彩色 图 像 ， 一 张 是 中 式 寺 庙 ， 另 一 张 是 伦 ) 。 然 后 
创建 两 个 7x7 的 过 滤器 (一 个 中 间 有 垂直 白 线 ， 男 一 个 中 间 有 水 平日 
线 让 ， ee () 函数 的 卷 积 层 构建 这 两 张 图 像 
(用 零 填充 ， 步 幅 为 2〉。 最 后 ， 绘 制 了 一 个 生成 的 特征 图 (与 图 13-5 








中 右上 和 角 的 图 像 类 似 )〉。 





import numpy as np 
from sklearn.datasets import load_ sample_ images 


# Load sample images 
dataset = np.array(load sample_ images().images, dtype=np.float32) 
batch_size, height, width, channels = dataset.shape 


# Create 2 filters 

filters_test = np.zeros(shape=(7, 7, channels, 2), dtype=np.float32) 
filters_test[:, 3, :, 0] = 1 # vertical line 

filters_ test[3, :, :, 1|] = 1 # horizontal line 


# Create a graph with input X plus a convolutional layer applying the 2 filters 
X = tf.placeholder(tf.float32, shape=(None, height, width, channels)) 
convolution = tf.nn.conv2d(X, filters, strides=[1,2,2,1], padding="SAME") 


with tf.Session() as sess: 

output = sess.run(convolution, feed dict={X: dataset}) 
plt.imshow(output[0, :, :, 1]) # plot 1st image's 2nd feature map 
plt.show() 





这 些 代码 大 多 数 都 是 浅显 易 懂 的 ， 但 是 conv2d () 函数 需要 一 点 解 


六 表示 小 批 次 (如 前 文 所 述 的 一 个 四 维 张 量 〉。 


filters 表 示 一 系列 要 应 用 的 过 滤器 《〈 也 是 前 文 提 到 过 的 一 个 四 维 张 
和 


strides 是 一 个 由 四 个 元 素 组 成 的 一 维 数组 ， 其 中 两 个 中 心 元 素 是 重 
直 和 水 平 步 幅 《sh 和 sw) 。 第 一 个 和 最 后 一 个 元 素 当 前 的 值 必须 等 于 1。 
它们 可 能 被 用 于 指定 批 次 步 幅 (为 了 跳 过 一 些 实例 ) 和 通道 步 幅 〈 为 了 
跳 过 一 个 上 一 层 的 特征 图 或 者 通道 )。 

padding 的 值 必须 为 VALID 或 者 SAME: 

如果 设 置 为 VALID， 卷 积 层 就 不 使 用 零 填 充 ， 根 据 步 幅 可 能 会 急 
略 输入 图 片 中 位 于 底部 和 右 侧 的 一 些 行 和 列 ， 如 图 13-7 所 示 《〈 为 了 简单 


人 
由 ) 。 


如果 设置 为 SAAME， 则 卷 积 层 在 必要 时 使 用 零 填 充 。 在 这 种 情况 
下 ， 输 出 神经 元 的 数量 等 于 输入 神经 元 的 数量 除 以 步 幅 ， 结 果 向 上 取 整 


wl 




















《在 本 例 中 ， 格 子 数 为 〈13/5) 二 3) ) 。 然 后 ， 在 输入 周围 尽 可 能 均 
匀 地 填充 零 。 


padding="VALID" 
(无 填充 ) 


忽略 





padding="SAME" 
( 零 填充 ) 











图 13-7: 填充 选项 一 一 输入 宽 13， 过 滤器 宽 6， 步 幅 5 








不 幸 的 是 ， 卷 积 层 有 很 多 超 参数 : 你 必须 选择 过 滤器 的 数量 、 高 、 
宽 、 步 幅 以 及 填充 类 型 。 与 往 第 一 样 ， 你 可 以 使 用 交叉 验证 来 找到 正确 
的 超 参数 值 ， 但 这 非常 耗 时 。 稻 后 ， 我 们 将 讨论 第 见 的 CNN 架 构 ， 让 你 
了 解 什么 超 参 数值 在 实践 中 最 有 效 。 


内 存 需 求 


CNN 的 另 一 个 问题 是 卷 积 层 需要 大 量 的 内 存 ， 特 别 是 在 训练 期 间 ， 
因为 反问 传播 的 方 辐 传递 需要 在 正 疝 传递 期 间 计算 所 有 的 中 间 值 。 


举 个 例子 ， 一 个 使 用 5x5 过 滤器 的 卷 积 层 ， 输 出 200 个 大 小 为 
150x100， 步 幅 为 1，padding 值 为 SAME 的 特征 图 。 如 果 输 入 为 150x100 
的 RGB 图 像 〈 三 个 通道 ) ， 参 数 的 数量 为 〈5x5x3+1) x200=15200 (+1 











对 应 的 是 偏 置 参数 ) ， 与 全 连接 相 比 ， 馈 这 个 数量 小 得 多 。 然 而 200 个 
特征 图 中 每 一 个 都 包含 150x100 个 神经 元 ， 而 每 一 个 神经 元 都 需要 计算 
5x5x3=75 个 输入 的 加 权 和 : 那 将 是 总 数 为 2.25 亿 次 的 浮 点 乘法 。 虽 然 与 
全 连接 相 比 结果 好 得 多 ， 但 计算 量 仍然 相当 密集 。 此 外 ， 如 果 32 位 浮 点 
表示 特征 图 ， 那 么 卷 积 层 的 输出 将 占用 200x150x100x32=9600 万 位 〈 相 
当 于 1.4M) 的 内 存 。 包 这 仅仅 是 一 个 例子 ， 如 果 训 练 批 次 包含 100 个 实 
例 ， 那 么 此 层 将 占用 超过 1GB 的 内 存 ! 


在 推 央 过 程 中 《 即 对 新 实例 的 预测 时 ) ， 一 旦 完成 下 一 层 的 计算 ， 
该 层 对 内 存 的 占用 将 被 立即 释 放 ， 所 以 你 只 需要 两 层 连 续 计 算 所 需要 的 
内 存 。 但 是 训练 时 ， 正 问 传 递 期 间 所 有 的 计算 数值 都 需要 保留 下 来 以 进 
行 反 回 传 递 ， 因 此 需要 的 内 存 大 小 至 少 为 所 有 层 所 需要 的 内 存量 之 和 。 





全 如果 训练 因为 内 存 不 足 而 崩 注 ， 可 以 尝试 减少 小 批 次 尺寸 ; 或 
者 ， 使 用 减少 步 幅 或 删除 几 个 图 层 的 方式 降低 维度 ;或 者 ， 使 用 16 位 浮 
点 取代 32 位 浮 点 ; 或者， 分 发 CNN 到 多 人 台 设 备 上 。 


现在 ， 我 们 来 看 看 CNN 的 第 二 个 常见 构建 块 : 池 化 层 。 


[1 卷 积 是 一 种 数学 运算 ， 它 将 一 个 函数 滑动 到 另 一 个 ， 并 计算 它们 逐 
点 相 乘 的 积分 。 它 与 傅 里 时 变换 和 拉 普 拉 斯 变换 有 很 大 的 关联 ， 被 广泛 
用 于 信和 号 处 理 。 卷 积 层 实际 上 使 用 交叉 关联 ， 这 与 卷 积 十 分 相似 〈 详 见 
http://goo.gl/HAfxXd) 。 

四 ] 一 个 有 150x100 个 神经 元 的 全 连接 层 ， 每 个 神经 元 都 连接 到 所 有 
150x100x3 个 输入 ， 将 有 1502x1002x3=675 万 个 参数 ! 

[3] 1MB=1024kB=1024x1024bytes=1024x1024x8bits。 


池 化 层 


一 旦 知道 了 卷 积 层 如 何 工 作 ， 池 化 层 就 很 容易 理解 。 它 们 的 目的 是 
通过 对 输入 图 像 进行 二 次 采样 以 减 小 计算 负载 、 内 存 利 用 率 和 参数 数量 
《从 而 降低 过 拟 合 的 风险 ) 。 减 小 输入 图 像 的 大 小 同样 可 以 使 神经 网 络 
容忍 一 定 的 图 像 移 位 《位 置 不 变性 ) 。 


与 卷 积 层 一 样 ， 池 化 层 的 每 个 神经 元 都 连接 到 上 一 层 输出 中 和 矩形 接 
收 野 内 的 有 限 个 神经 元 上 。 与 之 前 一 样 ， 必 须 定义 接收 野 的 大 小 、 步 幅 
和 填充 类 型 。 然 而 ， 池 化 神经 元 没有 权重 ， 它 做 的 所 有 事情 就 是 使 用 聚 
合 函 数 《〈 比 如 max 或 者 mean) 聚合 和 输入。 图 13-8 显 示 了 一 个 最 常见 的 池 
化 层 : 最 大 池 化 层 (max pooling layer) 。 在 这 个 例子 中 ， 池 化 内 核 为 
2x2， 步 幅 为 2， 无 填充 。 注 意 ， 每 个 内 核 中 的 最 大 输入 值 才 会 进入 下 一 
层 ， 其 他 输入 将 会 被 丢弃 。 


























图 13-8: 最 大 池 化 层 ( 池 化 内 核 2x2， 步 幅 2， 无 填充 ) 


这 显然 是 一 个 非常 具有 破坏 力 的 层 : 即使 内 核 为 2x2， 步 幅 为 2， 两 
个 方向 的 输出 都 会 减 小 为 原来 的 V2 (所 以 它 的 面积 会 减 小 为 原来 的 
1/4) ， 轻 松 地 降低 了 75% 的 输入 值 。 


池 化 层 通常 在 各 个 输入 通道 独立 工作 ， 因 此 输出 深度 与 输入 深度 相 








同 。 如 后 文 所 述 ， 你 可 以 选择 在 深度 维度 进行 登 加 。 在 这 种 情况 下 ， 图 
像 的 空间 维度 ( 口 和 宽 ) 保持 不 变 ， 但 是 通道 数量 减 小 了 。 


使 用 TensorFlow 实 现 最 大 池 化 层 非 第 简单 。 如 下 代码 使 用 内 核 
步 幅 2、 无 填充 创建 了 一 个 最 大 池 化 层 ， 然 后 应 用 到 数据 集 的 所 有 








[...] # load the image dataset, just like above 


# Create a graph with input X plus a max pooling layer 
X = tf.placeholder(tf.float32, shape=(None, height, width, channels)) 
max_pool = tf.nn.max_pool(X, ksize=[1,2,2,1], strides=[1,2,2,1],padding="VALID") 


with tf.Session() as sess: 
output = sess.run(max_pool, feed dict={X: dataset}) 


plt.imshow(output[0].astype(np.uint8)) # plot the output for the 1st image 
plt.show() 





ksize 的 参数 包括 内 核 4 个 维度 的 输入 张 量 : [batch size，height， 
width，channels]。TensorFlow 目 前 还 不 文 持 多 个 实例 有 登 加 ， 所 有 ksize 的 
第 一 个 元 素 必 须 等 于 1。 此 外 ，TensorFlow 同 样 不 支持 空间 维度 和 深度 
维度 的 癸 加 ， 所 有 ksize[1] 和 ksize[2] 必 须 同 时 等 于 1， 人 否则 ksize[3] 必 须 等 
| 


要 创建 一 个 平均 池 化 层 (average pooling layer) ， 只 需 轻 松 地 使 用 
avg_pool () 函数 代 奉 max_pool () 函数 即 可 。 


现在 ， 你 已 经 知道 了 创建 卷 积 神经 网 络 需 要 的 所 有 构建 块 。 接 下 
来 ， 我 们 来 看 看 如 何 组 装 它们 。 








CNN 架 构 


典型 的 CNN 架 构 堆 释 几 个 卷 积 层 〈( 每 个 卷 积 层 通 常 有 一 个 ReLU 
层 ) ， 然 后 是 一 个 池 化 层 ， 接 着 是 男 外 的 几 个 卷 积 层 (+ReLU) ， 之 后 
是 另 一 个 池 化 层 ， 以 此 类 推 。 在 经 过 网 络 处 理 的 过 程 中 ， 图 像 变 得 越 来 
越 小 ， 但 是 由 于 卷 积 层 它 会 变 得 越 来 越 深 ( 即 具有 更 多 的 特征 图 ) ， 如 
图 13-9 所 示 。 在 堆栈 的 顶部 ， 添 加 了 由 几 个 全 连接 层 组 成 的 常规 前 反馈 
I 最 后 的 层 输出 预测 (例如 ， 输 出 估计 类 概率 的 softmax 
云 ) 。 





























输入 卷 各 池 化 着 积 。 池 化 全 连接 


图 13-9: 典型 的 CNN 架 构 











舍 - 合 用 着 积 内 核 的 一 个 常见 错误 是 为 其 设置 一 个 太 大 的 值 ， 通常 
0 同时 减少 了 很 
计算 量 。 


这 么 多 年 来 ， 这 种 架构 的 各 种 形变 相继 开发 出 来 ， 使 得 这 一 领域 取 
得 了 惊人 的 发 展 。 该 领域 的 一 个 度量 标准 是 计算 中 的 错误 率 。5 年 内 ， 
图 像 分 类 领域 的 top-5 计 算 错 误 率 从 26% 左 右 降 到 了 不 到 3%。top-5 错 误 
率 是 系统 的 前 五 大 预测 不 包含 正确 答案 的 测试 图 像 的 数量 。 这 些 图 像 很 
大 〈 大 于 256 像 素 ) ， 有 1000 种 类 别 ， 其 中 有 些 图 片 非常 特殊 (比如 区 
< 。 研 究 这 些 算 法 的 演进 是 理解 CNN 工 作 原 理 的 好 办 
法 。 


我 们 首先 了 解 经 典 的 LeNet-5 架 构 〈1998) ， 然 后 是 ILSVRC 挑 战 的 





三 个 获奖 者 : AlexNet (2012) 、GoogLeNet (2014) 和 
ResNet (2015) 。 


其 他 视觉 任务 


其 他 视觉 任务 ， 诸 如 对 象 检 测 和 定位 、 图 像 分 割 等 方向 ， 也 取得 了 
惊人 的 进展 。 在 对 象 检测 和 定位 中 ， 神 经 网 络 通常 会 在 图 片 中 各 种 对 象 
周围 输出 一 系列 边框 。 例 如 ， 在 Maxine ”Ogquab 等 人 2015 年 发 表 的 论文 
(https://goo.g/ZKuDtv) 中 每 个 对 象 类 输出 的 热点 图 (heat map) ， 或 
者 Russell Stewart 等 人 2015 年 发 表 的 论文 (https:/goo.glupuHl2) 使 用 
CNN 的 组 合 来 检测 面部 和 一 系列 循环 神经 网 络 用 来 输出 围绕 在 其 周围 的 
一 系列 边框 。 在 图 像 分 割 中 ， 网 络 输出 一 个 图 像 ( 通 第 和 输入 图 像 的 尺 
寸 相 同 〉， 其 每 个 像素 对 应 于 输入 图 像 像素 所 属 的 类 别 。 具 体例 子 可 以 
查看 Evan Shelhamer 等 人 发 表 于 2016 年 的 论文 (https://goo.g/7ReZql) 。 





LeNet-5 

LeNet-5 可 能 是 最 广为人知 的 CNN 架 构 。 如 前 文 所 述 ， 它 是 在 1998 
年 被 Yann ”LeCun 创 建 的 ， 并 被 广泛 用 于 手写 数字 识别 (MNIST)。 它 
由 表 13-1 所 示 的 各 层 组 成 。 


表 13-1: LeNet-5 架 构 


内 校 尺 寸步 由 





OUT 全 连接 一 0 一 — RBF 
F6 全 连接 — 84 一 一 tam 
(5 卷 积 120 1xl X35 ] tanh 
$4 平均 池 化 16 Sy 2X2 2 tanh 
(3 卷 积 16 10x10 5xX5 1 tanh 
$2 平均 池 化 0 1]4X]4 2 2 tanh 
el 卷 积 6 28X28 $x5 | tanh 
In 输入 | 7X3 一 一 一 


这 里 有 一 些 额 外 的 细节 需要 注意 : 


-MNIST 图 像 是 28x28 像 素 的 ， 但 是 它们 被 零 填充 到 32x32 像 素 ， 并 
且 在 输入 到 网 络 之 前 进行 了 归 一 化 处 理 。 网 络 的 其 余部 分 都 不 在 使 用 任 
何 填充 ， 这 就 是 图 片 在 经 过 网 络 处 理 的 过 程 中 尺寸 不 断 缩 小 的 原因 。 


池 化 层 比 平常 稍微 复杂 一 点 : 每 个 神经 元 计算 输入 值 ， 然 后 将 结 
果 乘 以 一 个 可 学 习 系 数 〈 每 个 特征 图 一 个 ) 并 添加 一 个 可 学 习 偏 置 参数 
(同样 ， 每 个 特征 图 一 个 ) ， 最 终 应 用 激活 函数 。 


大 多 数 C3 图 中 的 神经 元 只 连接 到 52 图 中 的 三 到 四 个 神经 元 (而 不 
是 所 有 的 六 个 S2 特 征 图 ) 。 详 细 信息 ， 请 参阅 原始 文件 中 的 表 1。 


-输出 层 有 一 些 特 殊 : 每 个 神经 元 输出 其 输入 同 量 和 权 值 癌 量 之 间 
的 欧 几 里 得 距离 的 平方 ， 而 不 是 计算 输入 和 权 值 向 量 之 间 的 点 乘 。 每 个 
输出 衡量 该 图 片 属于 茶 个 特定 数字 类 的 可 能 性 。 在 这 里 交叉 精 代 价 函 数 
是 很 重要 的 ， 因 为 它 可 以 很 大 程度 上 减少 不 恨 预 测 ， 产 生 更 大 的 梯度 并 
且 因 此 更 快 地 收敛 。 


























Yann LeCun 的 个 人 网 站 〈http:/yann.lecun.com/) 〈“LENET2” 部 分 ) 


有 很 好 的 演示 LeNet-5 识 别 数字 的 例子 。 
AlexNet 


AlexNet CNN 架 构 〈http://goo.gl/mWRBRp) 山 以 大 比分 赢得 2012 年 
的 ILSVRC 竞 赛 : 它 的 top-5 错 误 率 是 17%， 远 优 于 第 二 名 的 26%。 这 个 
染 构 是 由 Alex Krizhevsky“ 算 法 以 他 的 名 字 命 名 ) 、JHya Sutskever 和 
Geoffrey ” ”Hinton 等 人 提出 的 。 它 和 LeNet-5 架 构 很 相似 ， 只 是 比 LeNet-5 
更 大 更 深 。 它 直接 将 卷 积 层 堆 车 到 其 他 层 之 上 上， 而 不 是 在 每 个 卷 积 层 之 
上 堆 靶 池 化 层 。 表 13-2 显 示 了 AlexNet 架 构 。 





表 13-2: AlexNet 架 构 


网 KH 塘 荐 洲 





0UT ”全 连接 一 1000 一 一 一 Softmax 
F9 ”全 连接 一 4096 一 一 一 ReLU 
F8 ”全 连接 一 4096 一 一 一 ReLU 
C7 卷 和 356 13x13 3x3 1 SAME ReLU 
C6 ” 卷 积 384 13x13 3x3 1 SAME ReLU 
C5 ” 卷 积 384 13x13 3x3 1 SAME ReLU 
S4 最 大 池 化 2)56 13x13 3x3 2 VALD — 

03 。 老 积 256 27x27 5 1 SAME Re 
S) 最 大 池 化 06 27X27 3x3 2) VWAD — 

Cl 老 积 06 55x55 lxXll 4 SAME RelU 
In ”输入 3 (RGB) 224X224 一 — 一 一 


为 了 减 小 过 上 度 拟 合 ， 作 者 们 使 用 了 两 种 我 们 前 面 提 到 的 正则 化 技 
术 : 首先 ， 在 训练 期 间 输 出 层 F8 和 F9 使 用 了 淘汰 策略 (淘汰 率 为 


50%) ; 其 次 ， 使 用 各 种 偏 移 、 水 平 翻 转 、 改 变 光照 条 件 等 来 随机 移动 
训练 数据 。 


在 对 Cl 层 和 C3 层 的 ReLU 之 后 ，AlexNet 同 样 立即 使 用 了 具有 竞争 性 
的 归 一 化 步骤 ， 该 步骤 称 为 本 地 响应 归 一 化 〈local response 
normalization， 人 简称 LRN) 。 这 种 形式 的 归 一 化 能 够 使 得 最 强烈 的 激活 
来 抑制 同一 位 置 但 是 在 不 同 特性 图 中 的 神经 元 〈 这 种 竞争 激活 特性 已 经 
在 生物 神经 元 中 被 观察 到 ) 。 这 种 特性 鼓励 不 同 特征 图 变 得 专业 化 、 推 
动 它们 分 离 并 过 使 它们 去 探索 新 的 功能 ， 最 终 改 进 泛 化 。 公 式 13-2 展 示 
了 如 何 应 用 LRN。 


公式 13-2: 本 地 响应 归 一 化 





人 
Jhig 各 mi 十 了 和 | 





d low - MaX 


| af 

b; 是 位 于 特征 图 的 u 行 、v 列 处 神经 元 的 归 一 化 输出 (注意 ， 在 该 
公式 中 ， 我 们 只 考虑 位 于 该 行 和 列 ， 因 此 没有 标 出 u 和 v)。 

.ai 是 在 ReLu 之 后 、 归 一 化 之 前 对 神经 元 的 激活 。 

，a，B 和 1 是 超 参 数 。k 被 称 为 往 置 参数 ，r 被 称 为 深度 半径 。 

是 特征 图 的 数量 。 

例如 ， 如 果 r=2 并 且 神 经 元 被 强 激活 ， 那 么 它 将 抑制 位 于 其 上 面 和 
下 面 的 特征 图 中 的 神经 元 的 激活 。 

在 AlexNet 中 ， 超 参数 的 设置 如 下 : r=2，a=0.00002，B=0.75， 
k=1。 该 步骤 可 以 使 用 TensorFlow 中 的 local_response_normalization () 
函数 实现 。 


由 Matthew ”Zeiler 和 Rob ”Fergus 开 发 的 AlexNet 的 变 体 ， 被 称 为 ZF 
Net， 赢 得 了 2013 年 的 世 SVRC 挑 战 。 它 的 本 质 就 是 AlexNet， 只 是 调整 
了 一 些 超 参数 《特征 图 的 数量 、 内 核 大 小 、 步 幅 等 。) 


GoogLeNet 


GoogLeNet 架 构 (http:/goo.gltCFzVs) 是 由 来 自 Google 研 究 部 的 
Christian Szegedy 等 全 全 外 并 通过 将 Top-5 错误 率 降 到 79% 而 顾 得 了 
2014 年 的 ISVRC 挑 战 。 这 一 伟大 的 性 能 很 大 程度 上 源 于 它 的 网 络 比 以 

前 的 CNN 更 深 ( 见 图 13- J 这 是 通过 一 个 称 为 初始 化 模块 (inception 
modules) 是 的 子 网 使 之 成 为 可 能 ， 沪 磺 质 守 得 GoueLela 比 届 前 的 架构 
更 加 有 效 地 使 用 参数 : GoogLeNet 实 际 具 有 的 参数 数量 只 是 AlexNet 的 
Ll/10《〈 大 约 是 600 万 个 参数 ， 而 不 是 AlexNet 的 6000 万 个 ) 。 


图 13-10 显 示 了 架构 的 初始 化 模块 。 符 号 “3x3+2(S) ”表示 该 层 使 
用 3x3 内 核 ， 步 幅 为 >2，SAME 填 充 。 输 入 信号 首先 被 复制 并 传送 到 四 个 
不 同 的 屋 。 所 有 的 卷 积 函数 使 用 ReLu 激 活 函 数 。 注 意 ， 第 二 组 卷 积 层 
使 用 了 不 同 的 内 核 大 小 (1x1，3x3 和 5x5) ， 这 样 使 它们 能 够 捕捉 到 不 
同 尺 寸 的 图 像 模 式 。 还 需 注意 的 是 ， 每 层 都 是 步 长 为 1， 填 充 为 
SAME 即使 是 最 大 池 化 层 ) ， 所 以 它们 的 输出 都 和 其 输入 有 着 相同 的 
高 和 宽 。 这 使 得 它 可 以 沿 着 最 终 的 深度 级 联 层 〈depth concat layer) 中 
的 深度 维度 连接 所 有 输出 〈 即 从 所 有 的 四 个 顶部 的 卷 积 层 堆 野 特征 
图 ) 。 该 级 联 层 可 以 使 用 TensorFlow 中 的 concat () 函数 实现 ， 其 中 
axis=3 (axis 表 示 深 度 ) 。 











深度 级 联 


1x1+1(8) | | 3x3+1(8) | | 5x5+1(8) | | 4xf+1(9) 


人 xf+ 1(S) | | 1xf+1(8) | | 3x3+1(9) 











图 13-10: 初始 化 模块 


你 可 能 疑惑 为 什么 初始 化 模块 用 内 核 为 1x1 的 郑 积 层 。 当 然 这 些 层 
不 能 捕捉 到 任何 特征 ， 因 为 它们 一 次 只 能 看 见 一 个 像素 。 事 实 上 ， 这 些 
层 的 存在 有 两 个 目的 : 


第 一 ， 它 们 被 配置 为 输出 的 特征 图 比 输入 少 ， 作 为 一 些 瓶 颈 层 来 
降低 维度 。 在 3x3 和 5x5 的 卷 积 层 之 前 使 用 该 层 特别 有 用 ， 因 为 这 些 是 计 
算 代 价 特别 高 的 层 。 


.第 二 ， 每 个 卷 积 层 对 〈[1x1，3x3] 和 [1x1，5x5]) 的 作用 就 如 同一 
个 单独 且 强 大 的 卷 积 层 ， 用 来 捕捉 更 加 复杂 的 模式 。 实 际 上 ， 这 些 卷 积 
层 对 能 够 扫描 图 像 中 的 两 层 神经 网 络 ， 而 不 是 简单 的 图 像 线性 分 类 器 
《如 单个 卷 积 层 所 做 的 一 样 ) 。 


简 而 言 之 ， 你 可 以 将 整个 初始 化 模块 看 成 是 一 个 超级 卷 积 层 ， 它 能 
够 输出 一 些 用 以 捕捉 各 种 尺寸 复杂 模式 的 特征 图 。 














全 \ 每 个 关 积 层 的 关 积 内 核 数 量 是 一 个 超 参 数 不 幸 的 是 ， 这 意味 
着 每 个 初始 层 都 有 6 个 或 者 更 多 个 超 参 数 。 


我 们 来 看 看 GoogLeNet 的 CNN 架 构 ( 见 图 13-11)。 由 于 它 太 深 了 ， 
我 们 不 得 不 使 用 三 列 来 展示 ， 但 是 实际 上 GoogLeNet 是 由 很 多 层 堆 登 起 
来 的 一 个 很 高 的 列 ， 其 中 包括 9 个 初始 化 模块 (每 个 有 转 简 图 案 的 











框 ) ， 其 中 每 个 包含 三 屋 。 每 个 苍 积 层 和 每 个 池 化 层 输出 的 特征 图 的 数 
量 显 示 在 内 核 尺 寸 之 前 。 初 始 化 模块 上 的 6 个 数字 表示 模块 中 每 个 卷 积 
层 输 出 特征 图 的 数量 (与 图 13-10 的 顺 友 相同 ) 。 注 意 ， 所 有 卷 积 层 都 


有 ReLU 激 活 函数 。 
















最 大 池 化 
192, 3x3 + 2(S 


本 地 响应 归 一 化 


最 大 池 化 
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64, 7x7 + 2(S) 





112 288 64 64 | 
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.全 连接 
1000 units 
Dropout 
40% 
平均 池 化 
1024, 7x7+ 1(V) 
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中 160 32 


832 3x3 + 2(9) 
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中 = 初始 化 模块 


图 13-11: GoogLeNet 架 构 





让 我 们 来 看 看 这 个 网 络 结构 : 


:为 了 减少 计算 量 ， 前 两 层 将 图 像 的 高 度 和 宽度 分 别 除 以 4( 因 此 面 
积 被 除 以 16) 。 

接 下 来 ， 一 个 本 地 响应 标准 化 层 确保 以 前 的 图 层 学 习 各 种 各 样 的 
特征 《如 前 所 述 ) 。 

.后面 是 两 个 卷 积 层 ， 其 中 第 一 个 像 瓶 颈 层 (bottleneck layer) 一 
样 。 如 前 所 述 ， 你 可 以 把 这 一 对 看 作 是 一 个 单一 智能 卷 积 层 。 


同样 ， 本 地 啊 应 标准 化 层 可 确保 前 面 的 图 层 捕捉 到 各 种 各 样 的 模 


Ts 








接 下 来 ， 为 了 再 次 增加 计算 速度 ， 最 大 池 化 层 将 图 像 的 高 度 和 宽 
度 减 小 为 原来 的 1/2。 


:然后 是 九 个 堆 车 的 初始 化 模块 。 为 了 减 小 维度 和 加 速 网 络 ， 它 们 
与 儿 个 最 大 池 化 层 交 织 堆 苔 。 


下 一 步 ， 平 均 池 化 层 使 用 具有 特征 图 尺寸 相同 、 填 充 为 YALID 的 
内 核 ， 输 出 1x1 的 特征 图 这 种 令 人 称奇 的 策略 称 为 全 局 平均 池 化 
(global average pooling〉。 它 有 效 强 制 前 面 的 各 层 产 生 特征 图 ， 这 些 特 
征 图 实际 上 是 每 个 目标 类 的 置信 图 (因为 其 他 类 型 的 特征 将 会 被 该 平均 
步骤 破坏 ) 。 这 样 就 无 须 在 CNN 顶 部 配置 几 个 完全 连接 层 〈 如 
ne ， 从 而 大 大 减 小 了 网 络 中 的 参数 数量 ， 并 且 降 低 了 过 度 配 置 


最 后 一 层 是 不 言 而 喻 的 : 放弃 正则 化 ， 然 后 使 用 一 个 具有 softmax 
油 活 函数 的 完全 连接 层 来 输出 估计 类 的 概率 。 


这 张 图 是 稍微 简化 版 的 。 原 始 的 GoogLeNet 架 构 还 包括 位 于 第 三 个 
和 第 六 个 初始 化 模块 之 上 的 两 个 辅助 分 类 器 ， 由 一 个 平均 池 化 层 ， 一 个 
卷 积 层 ， 两 个 全 连接 层 ， 以 及 一 个 softmax 激 活 层 组 成 。 在 训练 期 间 ， 
它们 的 损失 《〈 按 比例 缩小 70%) 被 加 到 整体 损失 中 。 目 的 是 解决 消失 的 
梯度 问题 和 规范 网 络 。 然 而 ， 结 果 表 明 其 作用 相对 较 小 。 


ResNet 











最 后 而 且 重 要 的 一 个 框架 是 由 Kaiming He 等 人 开发 鳃 并 获得 2015 年 
ILSVRC 竞 赛 冠 军 的 残 差 网 络 〈http:/goo.gl/4puHU5) ， 又 称 为 ResNet。 
它 使 用 了 一 个 由 152 层 组 成 的 非常 深 的 CNN， 使 得 Top-5 错 误 率 降 到 
3.6%。 能 够 训练 如 此 深层 网 络 的 关键 是 使 用 了 跳 过 连接 (也 称 为 快捷 连 
接 ) : 输入 到 一 个 层 中 的 信号 也 被 添加 到 位 于 堆栈 上 方 的 层 的 输出 端 。 
让 我 们 看 看 这 个 方法 为 何如 此 有 效 。 


训练 神经 网 络 时 ， 目 标 是 使 目标 图 数 h (xX) 模型 化 。 如 果 将 输入 x 
添加 到 网 络 的 输出 《〈 即 添加 跳 过 连接 ) ， 则 网 络 将 被 强制 模型 化 为 
f (x) =h (x) -x， 而 不 是 h (x) 。 这 被 称 为 残 差 学 习 〈 见 图 13-12 ) 。 








f(x) = h(X)-X 














图 13-12: 残 差 学 习 


初始 化 一 个 常规 神经 网 络 时 ， 它 的 权重 接近 于 零 ， 所 以 网 络 的 输出 
值 也 接近 于 零 。 如 有 果 添 加 一 个 路 过 连接 ， 那 么 生成 的 网 络 只 是 输出 一 个 
输入 的 复制 。 换 名 话说 ， 它 最 初 对 认证 函数 建 模 。 如 果 目 标 函 数 接近 于 
认证 函数 通常 是 这 种 情况 ) 将 加 快 训练 速度 。 


此 外 ， 如 果 添 加 多 个 跳 过 连接 ， 即 使 一 些 层 的 学 习 还 没有 开始 ， 网 
络 就 可 以 开始 处 理 进 程 (参见 图 13-13) 。 由 于 跳 过 连接 ， 信 号 可 以 轻 
松 地 路 越 这 个 网 络 。 深 层 残 差 网 络 可 以 看 作 是 一 组 残 差 单元 ， 每 个 残 差 
单元 是 一 个 具有 跳 过 连接 的 小 型 神经 网 络 。 


接近 其 原始 残 兰 

状态 的 导 单元 
X= 四 出 接近 于 办 并 
阻止 反 向 传播 的 导 











图 13-13: 常规 深层 神经 网 络 ( 左 ) 和 深层 残 差 网 络 ( 石 ) 


现在 来 看 看 ResNet 的 架构 〈 见 图 13-14) 。 它 的 架构 特别 简单 ， 开 
始 和 结束 与 GoogLeNet 特 别 相 似 〈 除 了 没有 淘汰 层 ) ， 中 间 是 一 个 非常 
深 的 简单 残 差 单元 。 每 个 残 差 单元 由 两 个 具有 分 批 归 一 化 (BN) 和 
ReLU 激 活 功能 的 卷 积 层 组 成 ， 使 用 了 内 核 并 保留 了 维度 空间 《〈 步 幅 为 
1， 填 充 为 SAME) 。 
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图 13-14: ResNet 架 构 


注意 ， 特 征 图 的 数量 是 每 个 残 差 单元 的 二 倍 ， 同 时 它们 的 高 度 和 和 宽 
度 减 半 《 使 用 步 幅 为 2 的 卷 积 层 ) 。 当 这 种 情况 发 生 时 ， 输 入 不 能 直接 
谎 加 到 残 差 单元 的 输出 上 ， 因 为 它们 不 具有 相同 的 形状 《〈 例 如 ， 这 个 问 
题 影响 图 13-14 中 用 虚线 箭头 表示 的 跳 过 连接 ) 。 为 了 解决 这 个 问题 ， 
输入 将 通过 一 个 具有 步 幅 为 2 和 输出 正确 数量 特征 图 的 1x1 卷 积 层 〈 见 图 
13-15) 。 


ResNet-34 是 具有 34 层 的 ResNet 〈 只 计算 卷 积 层 和 全 连接 层 ) ， 它 
包 合 了 3 个 输出 64 个 特征 图 的 残 差 单元 (RU) ，4 个 包含 129 个 特征 图 的 
RU，6 个 包含 256 张 特征 图 的 RU， 和 3 个 包含 512 张 特征 图 的 RU。 
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图 13-15: 当 改 变 特 征 图 尺寸 和 深度 时 的 跳 过 连接 


更 深层 的 ResNets， 例 如 ResNet-152， 使 用 的 残 差 单元 会 略 有 不 同 。 
它们 使 用 了 3 个 卷 积 层 : 首先 是 一 个 有 64 张 〈 小 于 4 倍 ) 特征 图 的 1x1 卷 
积 层 作为 瓶颈 层 〈 如 前 文 所 讨论 的 ) ， 然 后 是 一 个 有 64 张 特征 图 的 3x3 
卷 积 层 ， 最 后 是 另 一 个 有 256 张 (64 的 4 倍 ) 特征 图 的 1x1 卷 积 层 来 恢复 
原始 深度 。ResNet-152 包 含 了 三 个 这 样 的 输出 256 张 特征 图 的 RU， 然 后 8 
个 输出 512 张 特征 图 的 RU， 最 后 3 个 输出 2048 张 特征 图 的 RU。 


正如 你 看 到 的 ， 该 领域 发 展 迅速 ， 每 年 都 会 有 各 种 架 构 顺 清 而 出 。 
一 个 明显 的 趋势 是 ，CNN 的 深度 变 得 越 来 越 深 ， 同时 越 来 越 轻 量 ， 需 要 
的 参数 越 来 越 少 。 到 目前 为 止 ，ResNet 是 最 强大 同时 又 最 简单 的 架构 ， 
在 当下 来 说 特别 实用 。 但 是 请 持续 关注 每 年 的 世 LSVRC。2016 年 的 获奖 
者 是 来 自 中 国 的 团队 Trimps-Soushen， 其 错误 率 惊 人 地 达到 2.99%。 为 了 
达到 这 一 点 ， 他 们 训练 了 以 前 各 个 模型 的 组 合 ， 并 把 它们 加 入 一 个 合集 
根据 任务 的 不 同 ， 减 低 错 误 率 有 时 需要 、 有 时 不 需要 额 外 的 复杂 
































可 能 还 有 一 些 你 感 兴趣 的 其 他 架构 ， 尤 其 是 
VGGNet (http;//goo.g/QcMjXQ) 馈 〈 获 得 2014 年 的 ILSVRC 亚 军 ) 、 
Inception-v4 (http://goo.g/Ak2vBp) 加 〈 融 合 了 GoogLeNet 和 ResNet， 
在 ImageNet 分 类 取得 了 Top-5 错 误 率 接近 3% 的 成 绩 ) 


人 规则 计 论 的 各 种 CNN 架 构 没有 什么 特别 的 地 方 。 我 们 很 早 
就 看 到 了 如 何 去 构 建 所 有 的 单个 构建 模块 ， 现 在 需要 做 的 只 是 把 它们 组 
装 到 一 起 来 创建 一 个 需要 的 架构 。 我 们 将 在 后 面 的 练习 中 构建 一 个 
ResNet-34， 完 整 的 代码 可 以 在 Jupyter 笔 记 本 中 找到 。 


TensorFlow 卷 积 操作 
TensorFlow 还 提供 了 几 种 其 他 卷 积 层 : 


:conv1d〈) 用 于 一 维 输 入 卷 积 层 。 这 个 很 有 用 ， 比 如 在 自然 语言 
处 理 中 ， 句 子 有 可 能 被 表示 为 一 维 数组 ， 同 时 接收 野 履 盖 几 个 相 邻 的 单 
词 ， 


conv3d 〈) 用 于 创建 三 维 输入 卷 积 层 ， 例 如 三 维 PET 扫 描 。 


'atrous_conv2d () 用 于 创建 带 孔 卷 积 层 (atrous convolutional 
layer) (“atrous” 是 法 语 ， 意 为 “之 也 ”。) 这 相当 于 使 用 了 一 个 通过 为 
行 和 列 插 入 0 值 〈 该 0 值 即 相当 于 孔 ) 的 扩大 器 的 常规 卷 积 层 。 例 如 ， 一 
个 1x3 的 过 滤器 [[1，2，3]] 可 能 被 扩大 4 倍 ， 生 成 一 个 扩大 器 [[1，0，0， 
0，2，0，0，0，3]〗。 该 函数 使 得 卷 积 层 在 没有 计算 代价 和 和 额外 参数 的 
情况 下 ， 扩 大 了 接收 野 。 


conv2d_transpose 〈) 用 于 创建 转 置 卷 积 层 ， 有 时 又 称 为 去 卷 积 
层 ， 岂 用 来 进行 图 像 提升 采样 。 它 通过 在 输入 之 间 插 入 零 来 实现 功能 ， 
所 以 可 以 把 它 看 作 是 一 个 使 用 了 分 步 步 长 的 常规 卷 积 层 。 提 升 采样 在 图 
像 分 割 中 是 非常 有 用 的 : 例如 ， 在 典型 的 CNN 中 ， 网 络 中 的 特征 网 会 越 
来 越 小 ， 如 果 想 要 输出 一 个 与 输入 同 尺寸 的 图 像 ， 束 需要 提升 采样 层 。 


depthwise_conv2d〈) 用 来 创建 深度 卷 积 层 ， 将 每 个 过 滤器 应 用 到 
每 个 独立 的 输入 通道 。 因 此 ， 如 果 有 个 过 滤器 和 个 输入 通道 ， 那 么 
将 输出 fxf , 张 特 征 图 。 

.Separable_conv2d〈) 用 于 创建 可 分 离 卷 积 层 ， 其 首先 类 似 一 个 深 


度 卷 积 层 ， 然 后 应 用 一 个 卷 积 层 来 输出 特征 图 。 这 使 得 过 涯 器 可 以 应 用 
到 任意 的 输入 通道 。 
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练习 
1 一 个 具有 全 连接 DNN 的 CNN 在 图 像 分 类 方面 的 优势 是 什么 ? 


2. 一 个 由 三 个 卷 积 层 组 成 的 CNN， 每 个 卷 积 层 的 内 核 为 3x3、 步 幅 
为 2、 填 充 类 型 为 9AME 。 最 低层 输出 100 张 特征 图 ， 中 层 输出 200 张 特 
征 图 ， 最 高 层 输 出 400 张 特征 图 。 输 入 图 像 是 200x300 像 素 的 RGB 网 像 。 
CNN 的 参数 总 数 是 多 少 ? 如 果 使 用 32 位 浮 点 ， 在 进行 单个 示例 预测 时 ， 
该 网 络 所 需 的 最 小 RAM 是 多 少 ? 当 对 50 张 图 像 进行 迷你 批量 训练 时 ， 
需要 的 最 小 RAM 又 是 多 少 ? 


3. 如 果 GPU 在 训练 CNN 过 程 中 内 存 不 足 ， 为 了 解决 该 问题 ， 你 可 以 
做 的 五 件 事 是 什么 ? 


4. 为 什么 要 使 用 最 大 池 化 层 ， 而 不 是 具有 相同 步 幅 的 卷 积 层 ? 
5. 什 么 时 候 需 要 添加 本 地 啊 应 归 一 化 层 ? 


6. 与 LeNet-5 相 比 ， 你 能 罗列 出 AlexNet 的 创新 之 处 吗 ? GoogLeNet 和 和 
ResNet 的 主要 创新 是 什么 ? 


7. 构 建 一 个 自己 的 CNN， 并 尝试 在 MNIST 上 获得 最 高 的 准确 性 。 

8. 使 用 Inception v3 分 类 大 图 。 

a. 下 载 各 种 动物 的 图 像 。 在 Python 中 加 载 它们 ， 例 如 使 用 
matplotlib.image.mpimg.imread 〈) 函数 。 调 整 或 裁剪 它们 的 尺寸 至 
299x299 像 素 ， 且 只 有 三 个 通道 (RGB) ， 没 有 透明 通道 。 


b. 下 载 最 新 的 预 训练 的 mmception V3 模 型 : 检查 点 可 以 
在 https:/goo.glJnxSQvL 上 获得 。 


c. 通 过 调用 inception v3〈) 函数 创建 Inception v3 模型 ， 如 下 所 示 。 
这 步 必 须 在 由 inception_v3_arg_scope() 函数 创造 的 参数 范围 内 完成 。 
此 外 ，is_training=False 并 且 num_classes=1001， 如 下 所 示 : 














from tensorflow.contrib.slim.nets import inception 
Import tensorflow.contrib.slim as slim 


X = tf.placeholder(tf.float32, shape=[None, 299, 299, 3]) 
with slim.arg_scope(inception.inception_v3_arg_scope()): 
logits, end_ points = inception.inception v3( 
xX, num_classes=1001, is_training=False) 
predictions = end_points["Predictions"] 
saver = tf.train.Saver() 





d. 打 开 一 个 会 话 ， 并 使 用 Saver 来 还 原 预先 下 载 的 预 训练 模型 检查 


e. 运 行 模 型 ， 对 准备 的 图 像 进行 分 类 。 显 示 每 个 图 像 的 前 五 个 预测 
以 及 预测 的 概率 (可 用 类 名 可 以 从 https://goo.gVbrXRtZ 获 取 )〉 。 模 型 的 
准确 率 有 和 多少? 


9. 传 递 大 图 像 分 类 学 习 知 识 。 


a. 创 建 一 个 训练 集 ， 每 个 类 至 少 包含 100 张 图 像 。 例 如 ， 你 可 以 根据 
位 置 (海滩 、 山 脉 、 城 市 等 ) 对 目 己 的 图 像 进行 分 类 ， 或 者 使 用 现 有 数 
据 集 ， 例 如 花 数据 集 (https://goo.gVEgJVXZ) 或 MFT 的 地 点 数据 集 
(http://places.csail.mit.edu/) 〈 需 要 注册 ， 数 据 量 巨大 ) 。 


b. 写 一 个 预 处 理 步骤 ， 将 图 像 的 尺寸 调整 为 299x299， 具 有 一 些 随 
机 值 用 于 数据 增加 。 


c. 使 用 上 一 个 练习 中 预 训练 的 Pmception v3 模 型 ， 将 所 有 层 诛 结 到 瓶 
颈 层 〈 即 输出 层 的 前 一 个 层 ) ， 用 适当 数量 的 新 分 类 任务 输出 蔡 换 输出 
层 〈 例 如 ， 花 数据 集 具 有 五 个 互 斥 类 ， 所 以 输出 层 必 须 具 有 五 个 神经 
元 ， 并 使 用 softmax 激 活 函 数 ) 。 


d. 将 数据 集 分 为 训练 集 和 测试 集 。 在 训练 集 上 训练 模型 ， 在 测试 集 
上 进行 评估 。 








10. 通 该 TensorFlow 的 DeepDream 教 程 〈https:/goo.gl/4b2s6g) 。 这 
是 一 种 熟悉 各 种 可 视 化 的 CNN 学 习 模 型 和 使 用 深度 学 习 生 成 亏 术 的 有 趣 
方式 O 


练习 的 解决 方案 详 见 附录 A。 


第 14 章 ”循环 神经 网 络 


击 球 手 击 中 球 。 你 立刻 开始 奔跑 ， 并 预测 球 的 轨迹 。 你 跟踪 它 并 且 
调整 你 的 运动 方向 ， 最 后 在 掌声 中 抓 住 了 球 。 不 论 你 是 在 完成 一 次 友谊 
的 判决 还 是 预测 早餐 中 另 啡 的 味道 ， 预 测 未 来 是 我 们 总 在 做 的 事情 。 在 
本 章 中 ， 我 们 将 讨论 循环 神经 网 络 (RNN) ， 它 是 一 种 可 以 预测 未 来 的 
神经 网 络 〈 至 少 是 预测 某 些 点 ) 。 它 们 可 以 分 析 时 间 序 列 数据 ， 比 如 股 
票 价格 ， 然 后 告诉 你 什么 时 候 该 买 或 者 卖 。 在 上 自动 区 驶 系统 中 ， 它 们 可 
以 预测 汽车 的 轨迹 来 帮 你 避免 事故 。 一 般 来 说 ， 它 们 可 以 工作 在 任意 长 
度 的 序列 上 ， 而 不 是 像 我 们 目前 为 止 讨 论 的 所 有 网 络 那样 的 固定 长 度 输 
入 。 例 如 ， 你 可 以 使 用 句子 、 文 档 ， 或 者 语音 样本 等 作为 输入 ， 使 其 对 
目 然 语言 处 理 系统 有 用 ， 比 如 目 动 翻译 、 话 言 转换 成 文本 ， 或 者 情感 分 
析 《〈 例 如 阅读 电影 评论 、 提 取 评 委 对 电影 的 感受 ) 等 系统 。 


此 外 ，RNN 的 预测 能 力也 使 得 它们 能 够 产生 惊人 的 创造 力 。 你 可 以 
要 求 它们 预测 最 有 可 能 出 现在 旋律 中 的 下 一 个 音符 是 什么 ， 然 后 随机 地 
选择 其 中 一 个 音符 并 播放 它 。 之 后 重复 这 一 动作 ， 继 续 要 求 网 络 预测 下 
一 个 音符 并 播放 。 在 你 知道 它 前 ， 网 络 已 经 组 成 了 一 段 旋律 ， 例 如 谷歌 
的 Magenta 项 目 〈https:/magenta.tensorflow.org/) 开发 的 东西 
(Chttp:/goo.gIUIILIV) 。 类 似 地 ，RNN 可 以 产 出 句子 
Chttp:/goo.gl/onkPNd) 、 图 标 (http:/goo.gVNwxZ7Kh) 等 。 虽 然 结果 
比 不 上 水 士 比 亚 或 者 莫扎特 ， 但 是 谁 又 能 预测 几 年 后 将 会 发 生 什 么 呢 ? 


本 章 将 介绍 RNN 的 基本 概念 、 面 临 的 主要 问题 〈 也 就 是 第 11 章 讨论 
的 消失 /爆炸 梯度 问题 ) 以 及 广泛 应 用 于 LSTM 和 GRU 单 元 的 解决 方案 。 
与 往常 一 样 ， 我 们 将 展示 如 何 使 用 TensorFlow 实 现 RNN。 最 后 ， 我 们 会 
看 一 下 机 器 翻译 系统 的 架构 。 












































循环 神经 元 


到 现在 为 止 ， 我 们 主要 关注 前 馈 神经 网 络 ， 其 激活 流 只 在 一 个 方 问 
上 ， 从 输入 层 到 输出 层 〈 除 了 附录 E 中 的 几 个 网 络 ) 。 除 了 具有 反 向 连 
接 外 ， 循 环 神经 网 络 与 前 馈 神 经 网 络 非常 相似 。 我 们 来 看 一 个 最 简单 的 
RNN， 如 图 14-1 所 示 ， 仅 由 一 个 神经 元 组 成 ， 它 上 自己 接收 输入 ， 
出 ， 然后 将 输出 返回 其 本 身 。 在 每 一 个 时 间 迭 代 {《〈 也 称 为 一 帧 ) ， 

个 循环 神经 元 接收 输入 x (t) 和 上 一 个 时 间 迭 代 它 自己 的 输出 y (41) 。 

我 们 可 以 使 用 时 间 轴 来 代表 这 个 收 术 的 网 络 ， 如 图 14-1( 右 ) 所 示 。 这 
种 方式 被 称 为 按照 时 间 展 开 网 络 。 


1 


一 一 人 时 
图 14-1: 一 个 循环 神经 网 络 〈 左 ) ， 按 照 时 间 展 开 图 〈 右 ) 
你 可 以 轻松 创建 一 个 一 层 循环 神经 元 。 如 图 14-2 所 示 ， 在 每 一 个 时 
间 友 代 t， 每 个 神经 元 同时 接收 输入 回 量 x〈i) 和 前 一 个 时 间 和 迭代 的 输出 
回 量 y (1，。 注 意 ， 现 在 输入 和 输出 都 是 向量 〈 当 只 有 一 个 神经 元 时 ， 
输出 是 标量 ) 。 
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图 14-2: 一 层 循 环 神经 元 〈 左 ) ， 按 照 时 间 展 开 图 〈 右 ) 


每 个 循环 神经 元 有 两 个 权重 ， 一 个 是 输入 x ,，， 另 一 个 是 前 一 个 
时 间 迭 代 的 输出 y ui) 。 我 们 把 这 两 个 权重 向 量 称 为 wu 和 wy。 单 个 循环 
神经 元 的 输出 可 以 如 你 所 期 望 的 那样 计算 出 来 ， 如 公式 14-1 所 示 (b 是 
偏差 系数 ， 几 是 激活 函数 ， 如 ReLUD) 。 


公式 14-1: 单个 实例 的 单个 循环 神经 网 络 的 输出 


了 1 
= hb(X Wt+ "W, +0) 
) 1) 0 (0) x } (1-1) ) 
与 前 馈 神 经 网 络 类 似 ， 我 们 可 以 使 用 前 一 个 公式 的 同 量 化 形式 来 计 
算 在 整个 小 批 次 网 络 的 整 层 输出 。 
公式 14-2: 一 个 小 批 次 网 络 中 所 有 实例 的 一 层 循 环 神 经 网 络 的 输出 
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| 














Yo = 9X0 W + YW +b) = 由 [XU Yi) 'W+b) 其 中 W = 








) 


六 db 是 一 个 mxnusuon 和 矩阵 ， 包 含 了 时 间 迭 代 t 上 小 批 次 上 的 每 个 


实例 的 一 层 的 输出 《m 表 示 小 批 次 的 实例 数量 ，nneuons 是 神经 元 的 数 
性 

X 0) 是 一 个 mxninputs 窃 阵 ， 包 含 了 所 有 实例 的 输入 “ninputs 古 输入 
特征 的 数量 ) 。 

`Wx 是 一 个 ninputsxnneurons 矩 阵 ， 包 含 了 当前 时 间 友 代 输 入 的 连接 权 
重 。 


`Wy 是 一 个 nneuronsxnneurons 窍 阵 ， 包 含 了 前 一 个 时 间 友 代 输 出 的 连接 
权重 。 


:权重 矩阵 Wx 和 Wy 通 常 被 连接 成 一 个 形状 为 Cninpus+nneurons ) 
xnneurons 的 单独 权重 矩阵 〈 见 公式 14-2 的 第 二 行 ) 。 








是 一 个 大 小 为 neons 的 回 量 ， 包 售 每 个 神经 元 的 偏差 系数 。 


注意 ，Y cb 是 函数 X cb 与 Y 01) 之 和 ，Y (41) 是 X (41) 与 Y (142) 
之 和 , Y 62) 是 X 0) 与 Y 0a) 之 和 ， 以 此 类 推 。 当 时 间 t0 时 ，Y ，， 
是 一 个 与 所 有 输入 相关 的 六 数 《 即 XX (0)， 久 (1)，...，X 4c， ) 。 在 第 
一 个 时 间 达 代 t=0 时 ， 这 里 没有 之 前 层 的 输出 ， 所 以 这 时 候 它 们 的 值 被 
假设 为 全 零 。 
记忆 单元 

循环 神经 元 在 时 间 运 代 t 的 输出 是 之 前 时 间 迭 代 所 有 输入 的 函数 ， 
你 可 以 说 它 是 一 种 形式 的 记忆 。 那 些 能 够 保存 一 些 时 间 迭 代 的 状态 的 神 
经 网 络 称 为 记忆 单元 〈 或 者 简单 的 单元 ) 。 单 个 循环 神经 元 或 者 一 层 循 
环 神 经 元 是 非常 基 本 的 单元 ， 在 本 章 的 后 续 内 容 中 ， 我 们 会 看 一 些 更 加 
复杂 和 强大 的 单元 类 型 。 


通 利 一 个 单元 在 时 间 和 迭代 t 的 状态 被 记 作 h 4，(h 人 代表“ 隐藏 *) 表示 
在 茶 个 时 间 达 代 的 输入 和 它 在 前 一 个 时 间 和 迭代 的 状态 的 函数 : h cb 
=f Ch (1) ，X (4) ) 。 它 在 时 间 友 代 t 的 输出 y co 同样 是 前 一 个 时 间 友 
代 的 状态 和 当前 的 输入 的 函数 。 在 我 们 目前 所 讨论 的 基本 单元 的 情况 
下 ， 输 出 基本 等 于 状态 ， 但 是 在 更 加 复杂 的 单元 中 情况 就 不 是 这 样 了 ， 





如 图 14-3 所 示 。 
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图 14-3: 一 个 单元 的 隐藏 状态 和 它 的 输出 可 能 不 同 
输入 和 输出 序列 


RNN 可 以 同时 获取 输入 序列 并 产生 输出 序列 ( 见 图 14-4 左 上 方 网 
络 ) 。 例 如 ， 这 种 类 型 的 网 络 对 于 预测 股票 价格 等 时 间 序 列 是 有 用 的 : 
0 它 必 须 输出 未 来 一 天 的 价格 ( 即 从 N-1 天 以 前 到 
明天 的 价格 ) 。 


或 者 ， 提 供给 网 络 一 系列 输入 ， 并 且 忽 略 除了 最 后 一 个 之 外 的 所 有 
输出 《〈 见 图 14-4 右 上 方 的 网 络 ) 。 换 名 话说 ， 这 是 一 个 序列 到 向 量 网 
络 。 例 如 ， 输 入 给 网 络 一 个 电影 评论 相关 的 单词 序列 ， 网 络 输出 一 个 欢 
迎 度 评分 (例如 ，-1 (厌恶 ) 到 +1 (喜欢 ) ) 。 


相反 ， 可 以 在 第 一 个 时 间 和 迭代 给 网 络 输入 一 个 单词 “其 他 时 间 运 代 
输入 都 是 零 ) ， 并 让 它 输出 一 个 序列 〈 见 图 14-4 左 下 方 网 络 ) 。 这 是 一 
个 回 量 到 序列 网 络 。 例 如 ， 输 入 可 以 是 一 个 图 像 ， 输 出 是 该 图 像 的 标 


日 


大。o 





最 终 ， 会 有 一 个 被 称 为 编码 器 的 序列 到 同 量 网 络 和 一 个 被 称 为 解码 
器 《〈 见 图 14-4 右 下 方 的 网 络 ) 的 同 量 到 序列 网 络 。 例 如 ， 该 网 络 可 以 用 











于 将 句子 从 一 种 语言 翻译 成 男 一 种 语言 。 为 网 络 输入 一 种 语言 的 句子 ， 
编码 器 会 将 其 转换 成 单个 器 量 来 表示 ， 随 后 解码 器 将 这 些 同 量 解码 成 力 
一 种 语言 的 句子 。 这 种 两 步 模 型 被 称 为 编码 器 -解码 絮 网 络 ， 它 的 效果 
要 比 单独 的 序列 到 序列 的 RNN 网 络 (如 图 14-4 左 上 方 网 络 所 示 〉 好 得 

多 。 因 为 句子 中 的 最 后 一 个 单词 也 可 以 影响 第 一 个 单词 的 翻译 ， 上 所 以 在 
翻译 整个 句子 之 前 需要 知道 整个 句子 的 内 容 。 


听 起 来 特别 令 人 人 兴奋， 那么 让 我 们 开始 编码 吧 ! 


0 0 0 9 人 XX Xo 
编码 器 解码 器 
1 人 人 的 1 WD 1 


ES 





(0) 


本 








图 14-4: 序列 到 序列 网 络 〈 左 上 ) ， 序 列 到 问 量 网 络 ( 右 上) ， 问 量 到 
序列 网 络 〈 左 下 ) ， 延 迟 的 序列 到 序列 网 络 〈 右 下 ) 

[1 注意 ， 许 多 研究 人 员 更 喜欢 使 用 双 切 曲线 〈tanh) 作为 RNN 的 激活 

函数 ， 而 不 是 使 用 ReLU 激 活 函 数 。 例 如 ，Vu Pham 等 人 的 论文 “Droponut 


Improves Recurrent Neural Networks for Handwriting Recognition”。 然 
而 ， 基 于 ReLU 的 RNN 也 是 有 可 能 的 ， 可 以 参见 Quoc V.Le 等 人 的 论文 “A 
Simple Way to Initialize Recurrent Networks of Rectified Linear Units”。 


TensorFlow 中 的 基本 RNN 


首先 ， 为 了 更 好 地 了 解 它们 的 运行 原理 ， 我 们 先 不 用 TensorFlow 的 
任何 RNN 操 作 来 实现 一 个 最 简单 的 RNN 网 络 。 我 们 将 使 用 tanh 激 活 函 数 
创建 一 个 由 5 个 神经 元 组 成 的 一 层 RNN。 假 设 RNN 只 运行 两 个 时 间 迭 
代 ， 每 个 时 间 迭 代 输 入 一 个 大 小 为 3 的 向 量 。 下 述 代 码 通过 展开 两 个 时 
间 友 代 构建 这 个 RNN 网 络 : 








n_inputs = 3 
n_neurons = 5 


XO = tf.placeholder(tf.float32, [None, n_inputs]) 
Xx1 = tf.placeholder(tf.float32, [None, n_inputs]) 
Wx = tf.Variable(tf.random normal(shape=[n_inputs, n_neurons],dtype=tf.float32)) 
Wy = tf.Variable(tf.random normal(shape=[n_neurons,n_neurons],dtype=tf.float32)) 


b = tf.Variable(tf.zeros([1, n_neurons], dtype=tf.float32)) 


Y0 
YI 


tf.tanh(tf.matmul(XO0, Wx) + b) 
tf.tanh(tf.matmul(YO, Wy) + tf.matmul(X1i, Wx) + b) 


init = tf.global variables_initializer() 





这 个 网 络 看 起 来 特别 像 一 个 两 层 前 馈 神 经 网 络 ， 但 还 是 有 一 些 不 
同 : 第 一 ， 两 层 网 络 分 享 相同 的 权重 和 偏差 系数 ， 第 二 ， 每 层 都 接收 输 
入 ， 并 且 产 生 输 出 。 为 了 运行 这 个 模型 ， 我 们 需要 给 两 个 时 间 达 代 都 提 
供 输入 ， 如 下 所 示 : 





import numpy as np 


# Mini-batch: instance 0,instance 1,instance 2,instance 3 
X9_batch = np.array([[90, 1, 2], [3, 4, 5], [6, 7, 8], [9, ©0, 1]])#t=0 
X1_batch = np.array([[9, 8, 7], [©, 90, 0], [6, 5, 4], [3, 2, 1]])#t=1 


with tf,.Session() as sess: 
init.run() 
YO_val, Y1 val = sess.run([YO, Y1], feed dict={X0O: XO_batch, Xx1: Xx1 batch}) 





这 个 小 批 次 网 络 包含 四 个 实例 ， 每 个 实例 有 一 个 由 两 个 输入 组 成 的 
输入 序列 。 最 后 Y0_val 和 Y1_val 包 含 了 小 批 次 网 络 上 的 所 有 神经 元 和 所 
有 实例 在 两 个 时 间 运 代 上 的 输出 : 





>>> print(Y0_Vval) # output att = 0 


[[-0.2964572 0.82874775 -0.34216955 -0.75720584 0.19011548] # instance 0 
[-0.12842922 0.99981797 0.84704727 -0.99570125 0.38665548] # instance 1 
[ 0.04731077 0.99999976 0.99330056 -0.999933 0.55339795] # instance 2 
[ 0.70323634 0.99309105 0.99909431 -0.85363263 0.7472108 ]] # instance 3 


>>> print(Y1 val) # output at t = 1 

[[ 0.51955646 1. 0.99999022 -0.99984968 -0.24616946] # instance 0 
[-0.70553327 -0.11918639 0.48885304 0.08917919 -0.26579669] # instance 1 
[-0.32477224 0.99996376 0.99933046 -0.99711186 0.10981458] # instance 2 
[-0.43738723 0.91517633 0.97817528 -0.91763324 0.11047263]] # instance 3 








虽然 很 难 ， 但 是 肯定 可 以 使 用 这 个 方法 来 运行 一 个 有 100 个 时 间 迭 
代 的 RNN， 它 产生 的 图 形 将 会 变 得 巨大 。 现 在 我 们 来 看 看 如 何 使 用 
TensorFlow 的 RNN 操 作 来 创建 一 个 相同 的 网 络 。 


过 时 间 静 态 展 


static_rnn() 函数 通过 链 式 单元 来 创建 一 个 展开 的 RNN 网 络 。 下 面 
的 代码 创建 了 一 个 和 上 文 相同 的 RNN 网 络 : 





X0 = tf.placeholder(tf.float32, [None, n_inputs]) 
Xx1 = tf.placeholder(tf.float32, [None, n_inputs]) 


basic cell = tf.contrib.rnn.BasicRNNCell(num_ units=n_neurons) 
output_seqs, states = tf.contrib.rnn.static_rnn( 

basic_ cell, [X00, Xx1i], dtype=tf.float32) 
YO0, Y1 = output_seqs 





站 5 创建 和 以 前 一 入 的 竹 入 号 位 符 。 然后 创建 了 一 个 

BasicRNNCell， 可 以 认为 它 是 一 个 用 来 构建 展开 的 RNN 网 络 单元 副本 的 
工厂 。 然 后 调用 static_rnn〈() 函数 ， 传 入 单元 工厂 和 输入 张 量 ， 并 告诉 
函数 输入 的 数据 类 型 (这 个 函数 用 来 创建 初始 状态 矩阵 ， 其 默认 值 全 为 
零 ) 。 对 于 每 个 输入 ， static_ mn () 函数 调用 单元 工厂 的 _call OQ 
函数 来 创建 共 k 享 权重 和 偏差 系数 的 两 个 相同 的 单元 〈 每 个 单元 包含 一 个 
| 起 。 
static_ rnn () > 是 一 个 包含 了 每 个 时 间 迭 代 的 
区 出 张 量 的 Python 列 。 > pe ly 多 状态 的 张 量 。 当 你 
使 用 基本 单元 时 ， 最 终 4 状态 :等 王 最 后 的 移出 。 


如 果 有 50 个 时 间 迭 代 ， 定 义 50 个 输入 占 位 符 和 50 个 输出 张 量 束 会 有 
些 不 方便 。 另 外 ， 在 运行 时 也 需要 逐次 传 入 这 50 个 输入 并 处 理 50 个 输 
出 。 让 我 们 来 简化 一 下 这 个 流程 。 下 面 的 代码 再 次 创建 了 一 个 相同 的 
RNN 网 络 ， 但 是 这 次 只 需要 输入 一 个 输入 占 位 符 张 量 [None，n_steps， 








n_inputs]， 其 中 第 一 个 维度 是 小 批 次 的 尺寸 。 然 后 它 抽取 每 个 时 间 返 代 
的 输入 序列 列表 。X_seqs 是 张 量 [INone，n_inputs] 的 n_steps Python 列 
表 ， 同 样 第 一 个 维度 是 小 批 次 的 尺寸 。 为 了 实现 这 个 ， 我 们 首先 使 用 
transpose〈) 国 数 交 换 前 面 两 个 维度 ， 使 得 第 一 个 时 间 运 代 现 在 是 第 一 
个 维度 。 然 后 使 用 unstack〈) 函数 抽取 一 个 沿 着 第 一 个 维度 〈 即 ， 一 个 
时 间 运 代 一 个 张 量 ) 的 Python 张 量 列 表 。 接 下 来 的 两 行 和 以 前 一 样 。 最 
后 ， 使 用 stack〈) 函数 合并 所 有 输出 张 量 为 一 个 张 量 ， 并 交换 前 两 个 维 
度 来 得 到 一 个 基本 RNN 的 最 终 输 出 张 量 [None，n_steps，n_neurons] (再 
次 ， 第 一 个 维度 是 小 批 次 的 尺寸 ) 。 




















X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 
Xx_seqs = tf.unstack(tf.,transpose(X, perm=[1, ©0, 2])) 
basic cell = tf.contrib.rnn.BasicRNNCell(num_ units=n_neurons) 
output_seqs, states = tf.contrib.rnn.static_rnn( 

basic_ cell, Xx_seqs, dtype=tf .float32) 
outputs = tf.transpose(tf.stack(output_seqs), perm=[1, 0, 2]) 





现在 可 以 通过 输入 一 个 包含 所 有 小 批 次 序列 的 张 量 来 运行 网 络 : 





X_batch = np.array([ 
#t=0t=1 


[[©0, 1, 2], [9, 8, 7]], # instance 0 
[[3, 4, 5], [90, 0, 0]], # instance 1 
[[6, 7, 8], [6, 5, 4]], # instance 2 
[[9, ©0, 1], [3, 2, 1]], # instance 3 


]) 


with tf.Session() as sess: 
init.run() 
outputs_val = outputs.eval(feed dict={X: Xx_batch}) 





. | 有 实例 、 所 有 时 间 迭 代 和 所 有 神经 元 的 outputs_val 输 
张 量 : 





>>> print(outputs_val) 
[[[-0.2964572 0.82874775 -0.34216955 -0.75720584 0.19011548] 
[ 0.51955646 1. 0.99999022 -0.99984968 -0.24616946]] 


0.12842922 0.99981797 0.84704727 -0.99570125 0.38665548] 
-0.70553327 -0.11918639 0.48885304 0.08917919 -0.26579669]] 
0.04731077 0.99999976 0.99330056 -0.999933 0.55339795] 
-0.32477224 0.99996376 0.99933046 -0.99711186 0.10981458]] 


[[ 0.70323634 0.99309105 0.99909431 -0.85363263 0.7472108 ] 
[-0.43738723 0.91517633 0.97817528 -0.91763324 0.11047263]]] 


| 


然而 ， 这 种 情况 下 一 个 单元 在 每 个 时 间 人 迭代 仍然 需要 构建 出 一 张 
图 。 如 果 有 50 个 时 间 迭 代 ， 图 像 看 起 来 还 是 会 很 活 。 它 比较 类 似 于 不 使 
用 循环 来 写 程序 ( 即 ，Y0=f (0，X0) ; Y1=f (Y0，X1) ; 
Y2=f (Y1，X2) ; ...; Y50=f (Y49，X50) ) 。 在 正 向 传播 期 间 ， 为 
了 能 够 计算 反 向 传播 时 的 梯度 值 ， 系 统 必须 存储 所 有 的 张 量 值 ， 所 以 如 
果 使 用 这 种 大 图 像 ， 系 统 很 有 可 能 在 数据 反 回 传播 期 间 内 存 溢出 
(OOM) 尤其 是 当 GPU 容 量 有 限时 ) 。 


万 邓 ， 还 有 更 好 的 解决 方案 : dynamic_rnn 〈() 函数 。 
通过 时 间 动 态 展开 


dynamic_rnn〈() 函数 使 用 while loop 〈) 操作 在 单元 上 运行 适当 
次 。 为 了 避免 OOM 错 误 ， 可 以 设置 swap_memory=True 来 将 GPU 内 存 换 
到 CPU 内 存 。 方 便 的 是 ， 它 可 以 对 每 个 时 间 迭 代 的 所 有 输出 使 用 一 个 单 
独 张 量 (shape[None，n_steps，n_inputs]) ， 并 且 对 每 个 时 间 和 迭代 的 所 
有 输出 输出 一 个 单独 张 量 (shape[None，n_steps，n_neurons]) ， 不 需 
要 堆 登 、 拆 分 或 者 调换 。 下 面 的 代码 使 用 dynamic_rnn 〈) 函数 创建 了 
一 个 与 上 文 相 同 的 RNN 网 络 。 它 看 起 来 比 以 前 好 很 多 ! 





X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 


basic cell = tf.contrib.rnn.BasicRNNCell(num_ units=n_neurons 
outputs, states = tf.nn.dynamic_rnn(basic cell, XxX, dtype=tf.float32) 


了 NE 反问 传递 期 间 while loop 〈) 函数 用 了 一 些 适 当 的 “魔法 ”: 
它们 在 正 同 传输 期 间 保存 每 个 迭代 的 张 量 值 ， 使 得 网 络 可 以 在 反问 传输 
期 间 用 它们 来 计算 梯度 变化 。 


处 理 长 度 可 变 输入 序列 


到 现在 为 止 ， 我 们 使 用 的 都 是 固定 长 度 的 输入 序列 〈 全 部 只 有 两 个 
迭代 ) 。 如 果 输 入 序列 的 长 度 是 可 变 的 将 会 怎样 呢 ? 在 这 种 情况 下 ， 必 
须 在 调用 dynamic_rnn () (或 者 static_ rnn 〈() ) 函数 时 设置 
sequence_length 参 数 。 该 参数 必须 是 一 个 指示 每 个 实例 输入 序列 长 度 的 
一 维 张 量 。 例 如 : 


seq_length = tf.placeholder(tf.int32, [None]) 


[...] 
outputs, states = tf.nn.dynamic_rnn(basic cell, xXx, dtype=tf.float32, 
sequence_length=seq_length) 





X， 光 须 使 用 志向 量 坟 充 输入 《因为 输入 张 量 的 第 一 个 维度 是 最 长 序列 
、 小 ， 即 2。 





X_batch = np.array([ 
# step 0 step 1 


[[90, 1, 2], [9, 8, 7]], # instance 0 
[[3, 4, 5], [0, 0, 0]], # instance 1 (padded with a zero vector) 
[[6, 7, 8], [6, 5, 4]], # instance 2 
[[9, 90, 1], [3, 2, 1]], # instance 3 


]) 
seq_length_batch = np.array([2, 1, 2, 2]) 





当然 ， 还 需要 输入 占 位 符 X 和 seq_length 的 值 : 





with tf,.Session() as sess: 
init.run() 
outputs_val, states val = sess.run( 
[outputs, states], feed dict={X: X_batch, seq_length: seq_ length_ batch}) 





现在 ，RNN 为 每 一 次 达 代 超过 输入 序列 长 度 的 部 分 输出 零 癌 量 (看 
代码 中 第 二 个 实例 的 第 二 个 时 间 达 代 》〉: 





>>> print(outputs_val) 
[[[-0.2964572 0.82874775 -0.34216955 -0.75720584 0.19011548] 
[ 0.51955646 1. 0.99999022 -0.99984968 -0.24616946]] # final state 


[[-0.12842922 0.99981797 0.84704727 -0.99570125 0.38665548] # final state 
[ 9. 0. 0. 0. 0， ]] # zero Vector 


.04731077 0.99999976 0.99330056 -0.999933 0.55339795] 
.32477224 0.99996376 0.99933046 -0.99711186 0.10981458]] # final state 


.70323634 0.99309105 
.43738723 0.91517633 


,99909431 -0.85363263 0.7472108 | 
,97817528 -0.91763324 0.11047263 ]]] # final state 


局 o 





此 外 ， 状 态 张 量 包含 了 每 个 单元 的 最 终 状 态 〈 除 了 零 癌 量 ) : 





>>> print(states_val) 


[[ 9.51955646 1. 0.99999022 -0.99984968 -0.24616946] #t = 1 
[-0.12842922 0.99981797 0.84704727 -0.99570125 0.38665548] #t = 0!1!! 
[-0.32477224 0.99996376 0.99933046 -0.99711186 0.10981458] #t = 1 
[-0.43738723 0.91517633 0.97817528 -0.91763324 0.11047263]] #t = 1 





处 理 长 度 可 变 输出 序列 


如 果 输 出 序列 的 长 度 也 是 可 变 的 将 会 怎样 ?如 果 能 提前 知道 每 个 序 
列 的 长 度 是 多 少 〈 例 如 ， 知 道 每 个 输出 序列 的 长 度 和 输入 序列 一 致 ) ， 
那么 就 可 以 使 用 前 文 所 述 的 方法 设置 Sequence_length 参 数 的 值 。 不 笠 的 
是 ， 通 常 这 种 情况 不 可 能 出 现 ， 例 如 ， 被 翻译 后 的 句子 的 长 度 通 香 和 输 
入 句子 的 长 度 不 一 致 。 在 这 种 情况 下 ， 最 通用 的 解决 方案 是 定义 一 种 被 
称 为 序列 结束 令 牌 (EOS ”token) 的 特殊 输出 。EOS 之 后 的 所 有 输出 将 
会 被 忽略 (我 们 将 在 本 章 的 后 面 详细 讨论 这 一 点 )。 


现在 知道 如 何 构 建 一 个 RNN 网 络 了 (或 者 更 准确 地 说 是 按时 间 展 开 
的 RNN 网 络 ) 。 但 是 ， 如 何 训练 它 呢 ? 


训练 RNN 


训练 一 个 RNN 网 络 的 关键 是 像 之 前 做 的 那样 将 其 通过 时 间 展 开 ， 然 
后 简单 地 使 用 一 个 定期 的 反 向 传播 〈 见 图 14-5) 这 种 策略 称 为 通过 时 间 
反 向 传播 (BPTT) 。 


Cty We 二 
Y Vy Y 


(2) 
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(4) 











图 14-5: 通过 时 间 反 向 传播 


类 似 于 定期 的 反 向 传播 ， 首 先 沿 着 展开 网 络 的 是 一 个 正 向 传播 (图 
中 虚线 箭头 表示 ) ;然后 使 用 成 本 函数 CCYo ，Yuw-D，…，Yo "估算 
笨 出 〈 其 中 ，tr 和 tf 表示 第 一 个 和 最 后 一 个 输出 时 间 和 迭代 ， 不 计算 被 
忽略 的 输出 ) ， 成 本 函数 的 梯度 是 沿 着 展开 的 网 络 反 向 传播 (图 中 的 实 
线 表 示 ) ; 最 后 ， 在 BPTT 期 间 使 用 梯度 所 计算 的 值 更 新 网 络 参数 。 注 
意 ， 梯 度 通 过 被 成 本 函数 使 用 的 所 有 输出 向 后 流动 ， 而 不 是 仅仅 通过 最 
终 输出 (例如 ， 图 14-5 中 的 成 本 函数 使 用 网 络 的 最 后 三 个 输出 Y , 、 
Y 4， 和 Y 0, 计算 ， 所 以 梯度 通过 这 三 个 输出 流动 ， 而 不 是 通过 Y 0， 
和 Y 1，) 。 此 外 ， 因 为 相同 的 参数 WwW 和 b 被 使 用 于 每 个 时 间 和 迭代 ， 所 以 








反问 传播 可 以 做 正确 的 事情 并 总 结 所 有 时 间 迭 代 。 
训练 序列 分 类 器 


让 我 们 来 训练 一 个 识别 MNIST 图 像 的 RNN 网 络 。 卷 积 神经 网 络 更 
加 适合 于 图 像 分 类 〈 见 第 13 章 ) ， 这 里 只 是 想 举 一 个 熟悉 的 例子 。 我 们 
将 图 像 视 为 一 个 28 行 ， 每 行 28 像 素 的 序列 〈 因 为 每 个 MNIST 图 像 是 
28x28 像 素 ) 。 我 们 将 使 用 150 个 循环 神经 元 单元 ， 外 加 一 个 连接 到 最 后 
一 个 时 间 迭 代 输 出 上 的 包含 10《〈 一 个 类 一 个 ) 个 神经 元 的 全 连接 层 ， 最 
后 是 一 个 softmax 层 〈 见 网 14-6) 。 
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图 14-6: 序列 分 类 器 


构建 阶段 非常 简单 ， 它 和 第 10 章 构建 的 MNIST 分 类 器 几乎 一 样 ， 只 
征用 一 个 展开 的 RNN 代 从 了 隐藏 层 。 注 意 ， 全 连接 层 是 连接 在 包 合 
RNN 最 终 状 态 的 状态 张 量 上 《〈 即 第 28 个 输出 上 ) 。 另 外 需要 注意 的 是 ， 
y 是 一 个 目标 类 占 位 符 。 














from tensorflow.contrib.layers import fully_connected 


n_steps = 28 
n_inputs = 28 
n_neurons = 150 


n_outputs = 10 
Jearning_rate = 0.001 


X 
y 


tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 
tf.placeholder(tf.int32, [None]) 


basic cell = tf.contrib.rnn.BasicRNNCell(num_ units=n_neurons) 
outputs, states = tf.nn.dynamic_rnn(basic cell, Xx, dtype=tf.float32) 


logits = fully_connected(states, n_outputs, activation_fn=None) 

xentropy = tf.nn.sparse_softmax_cross_entropy_with_ logits( 
labels=y, logits=]ogits) 

loss = tf.reduce mean(xentropy) 

optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate) 

training_op = optimizer.minimize(loss) 

correct = tf.nn.in_top_k(logits, y, 1) 

accuracy = tf,.reduce mean(tf.cast(correct, tf.float32)) 

init = tf.global variables_ initializer() 





现在 ， 加 载 MNIST 数 据 ， 并 按照 网 络 的 要 求 改造 测试 数据 为 
[batch_size，n_steps，n_inputs]。 随 后 我 们 会 改造 训练 数据 。 





from tensorflow.examples.tutorials.mnist Import input_data 


mnist = input_data.read data sets("/tmp/data/") 
X_test mnist.test.images.reshape((-1, n_steps, n_inputs)) 
y_test mnist.test.1labels 





现在 开始 训练 RNN 网 络 。 执 行 阶段 和 第 10 章 的 MNIST 分 类 器 也 几 
乎 完全 相同 ， 只 是 在 输入 到 网 络 之 前 会 改造 每 个 训练 批 次 的 输入 数据 。 








n_epochs = 100 
batch_size = 150 


with tf.Session() as sess: 
init.run() 
for epoch in range(n_epochs): 
for iteration in range(mnist.train.num examples // batch_size): 
X_batch，y_batch = mnist.train.next_batch(batch_size) 
X_batch = x_batch.reshape((-1, n_steps, n_inputs)) 
sess.run(training_op, feed dict={X: X_ batch, y: y_batch}) 
acc_train = accuracy.eval(feed dict={X: X_batch，y: y_batch}) 
acc_test = accuracy.eval(feed dict={X: Xx test, y: y_test}) 
print(epoch, "Train accuracy:", acc_train, "Test accuracy:", acc_test) 





输出 类 似 于 如 下 代码 : 





0 Train accuracy: 0.713333 Test accuracy: 0.7299 


1 Train accuracy: 0.766667 Test accuracy: 0.7977 


98 Train accuracy: 0.986667 Test accuracy: 0.9777 
99 Train accuracy: 0.986667 Test accuracy: 0.9809 





我 们 得 到 了 98% 的 准确 率 ! 此 外 ， 可 以 通过 一 些 措 施 得 到 更 好 的 结 
果 ， 比 如 : 通过 起 参数 调整 、 使 用 He 初始 化 来 初始 化 RNN 权 重 、 训 练 
更 长 时 间 、 增 加 一 些 正则 化 如， 退出 〉 等 。 





Qi 以 通过 将 其 构造 代码 包含 在 可 变 范围 内 来 为 RNN 网 络 指定 初 
始 化 程序 〈 为 了 使 用 He 初始 化 ， 使 用 了 variable_scope 〈"rmn'"， 


initializer=variance_scaling_initializer () ) ) 。 
训练 预测 时 则 序列 


现在 来 看 看 如 何 处 理 时 间 序 列 ， 如 股票 价格 、 空 气温 度 、 脑 波 模 式 
等 。 在 本 节 中 ， 我 们 将 训练 一 个 RNN 来 预测 生成 时 间 序 列 里 的 下 一 个 
值 。 每 个 训练 实例 是 从 时 间 序 列 中 随机 选择 的 20 个 连续 值 ， 除 了 时 间 运 
代 后 移 一 个 ， 目 标 序 列 与 输入 序列 相同 〈 见 图 14-7) 。 
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图 14-7: 时 间 序 列 〈 左 ) ， 从 时 间 序 列 而 来 的 训练 实例 〈 右 ) 


首先 ， 创 建 一 个 RNN。 它 包含 100 个 循环 神经 元 ， 将 其 展开 为 20 个 
时 间 和 迭代 ， 因 此 每 个 训练 实例 的 输入 长 度 为 20。 每 个 输入 只 包含 一 个 特 
征 〈 当 时 的 值 ) 。 目 标 序 列 也 有 20 个 输入 ， 每 个 输入 是 一 个 单独 值 。 代 
码 几 乎 与 前 面 的 相同 : 





n_steps = 20 
n_inputs = 1 
n_neurons = 100 
n_outputs = 1 


X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 

y = tf.placeholder(tf.float32, [None, n_steps, n_outputs]) 

cell = tf,.contrib,.rnn.BasicRNNCell(num_units=n_neurons, activation=tf.nn.relu) 
outputs, states = tf.nn.dynamic_rnn(cell, XxX, dtype=tf.float32) 





Mmat, 输入 的 特征 不 止 一 个 。 例 如 ， 如 果 想 要 预测 股票 
价格 ， 将 会 在 每 个 时 间 返 代 获 取 多 个 其 他 输入 特征 ， 如 竞争 股票 的 价 
格 、 分 析 师 的 评价 ， 或 者 其 他 帮助 系统 预测 的 特征 。 


现在 在 每 个 时 间 友 代 ， 有 一 个 大 小 为 100 的 输出 向 量 ， 但 是 实际 上 
我 们 只 需要 一 个 单独 的 输出 值 。 最 简单 的 解决 方案 是 将 单元 格 包 装 在 
OutputProjectionWrapper 中 。 包 装 单 元 像 普通 的 单元 格 一 样 ， 其 方法 调 
用 下 面 的 单元 格 ， 但 是 也 添加 了 一 些 功能 。OutputProjectionWrapper 在 
每 个 输出 的 项 部 (但 是 不 影响 单元 的 状态 ) 添加 了 一 个 线性 神经 元 的 全 
连接 层 。 所 有 的 这 些 全 连接 层 分 享 相同 的 (可 训练 的 ) 权重 和 偏差 系 
数 。 得 到 的 RNN 如 图 14-8 所 示 。 


包装 单元 相当 简单 。 让 我 们 调整 上 述 代 码 ， 包 装 一 个 BasicRNNCell 
为 Output-ProjectionWrapper: 











cell = tf,.contrib,.rnn.OutputProjectionwrapper( 
tf.contrib.rnn.BasicRNNCell(num_units=n_neurons, activation=tf.nn.relu),outpu 





























Ki) Xtg, 


BasicRNNCell 





OutputConnectionWrapper 








图 14-8: 使 用 了 输出 预测 的 RNN 单 元 


到 目前 为 止 ， 一 切 顺 利 。 现 在 需要 定义 一 个 成 本 函数 。 我 们 将 使 用 
以 前 回归 任务 中 用 过 的 均 方 误差 (MSE) 。 接 下 来 ， 与 以 往 一 样 将 创建 
Adam 优 化 器 、 训 练 操作 、 初 始 化 变量 : 








learning_rate = 0.001 

Joss = tf,.reduce mean(tf.square(outputs - y)) 

optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate) 
training_op = optimizer.minimize(1oss) 


init = tf.global variables_initializer() 





现在 是 执行 阶段 : 





n_iterations = 10000 
batch_size = 50 


with tf,.Session() as sess: 


init.run() 
for iteration in range(n_iterations): 
Xx_batch, y_batch = [...] # fetch the next training batch 
sess.run(training_op, feed dict={X: XxX_ batch, y: y_batch}) 
If iteration % 100 == 0: 
mse = loss.eval(feed dict={X: Xx batch, y: y_batch}) 
print(iteration, "\tMSE:", mse) 





程序 输出 类 似 下 面 的 代码 : 





0 MSE: 379.586 
100 MSE: 14.58426 
200 MSE: 7.14066 
300 MSE: 3.98528 
400 MSE: 2.00254 


[...] 





一 旦 模型 被 创建 ， 束 可 以 做 预测 : 





X new = [...] # New sequences 
y_pred = sess.run(outputs, feed dict={X: X_new}) 








图 14-9 输 出 了 前 文 实例 〈 在 图 14-7 中 ) 在 经 过 了 1000 次 训练 迭代 后 
的 预测 序列 。 
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图 14-9: 预测 时 间 序 列 


尽管 使 用 OutputProjectionWrapper 是 将 每 个 时 间 迭 代 RNN 的 输出 序 
列 维度 降低 到 一 个 值 的 最 简单 方法 ， 但 是 它 的 效率 不 是 最 高 的 。 这 里 有 
一 个 更 加 有 效 的 技巧 :可 以 将 RNN 的 输出 从 [batch_size，n_steps， 
n_neurons] 改 造 为 [batch_size*n_steps，n_neurons]， 然 后 应 用 适当 输出 尺 
寸 《在 我 们 的 例子 中 ， 值 为 1) 的 单独 全 连接 层 ， 这 将 导致 输出 张 量 为 
[batch_size*n_steps，n_outputs]， 然 后 改造 这 个 张 量 为 [batch_size， 
n_steps，n_outputs]。 这 些 操作 如 图 14-10 所 示 。 











为 了 实现 这 个 方法 ， 首 先 回 深 到 一 个 没有 OutputProjectionWrapper 
的 基本 单元 : 





cell = tf,.contrib,.rnn.BasicRNNCell(num_units=n_neurons, activation=tf.nn.relu) 
rnn_outputs, states = tf.nn.dynamic_rnn(cell, xX, dtype=tf .float32) 





然后 使 用 reshape〈) 操作 登 加 所 有 输出 ， 应 用 线性 全 连接 层 ( 这 仪 
仅 是 一 个 预测 ， 不 使 用 任何 的 激活 函数 ) ， 最 后 再 使 用 reshape〈) 拆 分 
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图 14-10: 合 加 所 有 输出 ， 应 用 预测 ， 然 后 拆 分 结果 








stacked_rnn_outputs = tf,reshape(rnn_outputs，[-1，n_neurons] ) 
Stacked_outputs = fully_connected(stacked_rnn_outputs, n_outputs, 


activation_fn=None 
outputs = tf.reshape(stacked outputs, [-1i, n_steps, n_outputs]) 


剩余 的 代码 和 前 面 的 相同 。 这 个 方法 可 以 有 效 提 高 速度 ， 因 为 整个 
网 络 只 有 一 个 全 连接 层 ， 而 不 是 每 个 时 间 友 代 一 个 。 


创造 性 的 RNN 


现在 已 经 有 一 个 可 以 预测 未 来 的 模型 ， 像 本 章 开 始 描 述 的 那样 ， 可 
以 使 用 它 来 产生 一 些 创造 性 的 序列 。 我 们 需要 做 的 事情 是 提供 一 个 包含 
n_steps 值 例如， 全 为 零 的 值 ) 的 种 子 序列 ， 使 用 模型 预测 下 一 个 值 ， 
将 该 预测 值 附加 到 序列 ， 给 模型 输入 下 一 个 的 n_steps 值 来 预测 下 一 个 
值 ， 等 等 。 该 过 程 产 生 了 一 个 和 原始 序列 有 相似 性 的 新 序列 《〈 见 图 14- 
LT 3 








sequence = [0.] * n_ steps 

for iteration in range(300): 
X_batch = np.array(sequence[-n_steps:]).reshape(1, n_steps, 1) 
y_pred = sess.run(outputs, feed dict={X: Xx_batch}) 
sequence.append(y_pred[90, -1, 0]) 
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图 14-11: 创造 性 序列 ， 使 用 零 值 作为 种 子 序列 〈 左 ) 或 者 使 用 一 个 实 
例 作为 种 子 序列 〈 右 ) 








现在 可 以 党 试 着 将 John ”Lennon 的 所 有 专辑 输入 RNN 网 络 ， 看 看 它 
能 不 能 创造 出 下 一 个 “Imagine”。 但 是 ， 可 能 需要 一 个 具有 更 多 神经 元 和 
更 深层 次 的 更 强大 的 RNN 网 络 。 





深层 RNN 
堆 肝 多 层 单元 格 的 做 法 很 常见 ， 图 14-12 给 出 了 一 个 深层 RNN， 
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图 14-12: 深层 RNN ( 左 ) ， 按 时 间 展 开 ( 右 ) 


为 了 使 用 TensorFlow 实 现 一 个 深层 RNN， 可 以 创建 几 个 单元 ， 然 后 
将 它们 堆 码 为 一 个 MultiRNNCell。 下 面 代码 中 堆 天 了 3 个 相同 的 单元 
(当然 ， 你 可 以 使 用 具有 不 同 数量 神经 元 的 各 种 单元 ) 。 








n_neurons = 100 
n_layers = 3 


basic cell = tf.contrib.rnn.BasicRNNCell(num_ units=n_neurons) 
multi layer_cell = tf.contrib.rnn.MultiRNNCell([basic cell] * n_layers) 
outputs, states = tf.nn.dynamic_rnn(multi layer_cell, XxX, dtype=tf.float32) 








这 束 是 所 有 需要 做 的 事情 ! 每 个 状态 变量 是 一 个 每 层 包含 一 个 张 量 
的 元 组 ， 每 个 元 组 代表 该 层 单元 〈 有 具有 [batch_size，n_neurons]) 的 最 终 
状态 。 创 建 MultiRNNCell 时 ， 如 果 设 置 state_is_tuple=False， 则 状态 是 一 
个 包含 每 层 状态 并 沿 着 列 方向 〈 样 式 为 [batch_size， 





n_layers*n_neurons]) 连接 的 单个 张 量 。 注 意 ， 在 TensorFlow 0.11.0 之 
前 ， 默 认 行 为 就 是 这 种 。 
在 多 个 GPU 中 分 配 一 个 深层 RNN 

第 12 间 指出， 可 以 通过 将 每 个 层 固 定 在 不 同 的 GPU 上 来 在 多 个 GPU 


间 有 效 分 配 深层 RNN 〈 见 图 12-16) 。 但 是 ， 如 果 试 图 在 不 同 的 
device 〈) 块 上 创建 每 个 单元 格 ， 它 将 无 法 正常 工作 : 











with tf.device("/gpu:0"): # BAD! This is ignored. 
layer1 = tf.contrib.rnn.BasicRNNCell(num_ units=n_neurons) 


with tf.device("/gpu:1"): # BAD! Ignored again. 
layer2 = tf.contrib.rnn.BasicRNNCell(num_ units=n_neurons) 








失败 的 原因 是 ，BasicRNNCel 是 一 个 单元 格 工厂 ， 而 不 是 单元 格 本 
里 《如 前 所 述 ) ; 在 创建 工矿 的 时 候 是 没有 任何 单元 格 被 创建 的 ， 同 样 
也 没有 创建 变量 。 


设备 块 被 简单 忽略 。 单 元 格 实际 在 随后 被 创建 。 当 调用 
dynamic_ rn《〈) 方法 时 ， 它 调用 了 MultiRNNCell，MultiRNNCell 调 用 
实际 创建 单元 格 〈 包 括 它 的 变量 ) 的 每 个 单独 的 BasicRNNCell。 不 笠 的 
是 ， 没 有 提供 任何 类 来 控制 创建 变量 的 设备 。 如 果 试 图 在 某 个 设备 块 上 
调用 dynamic_ rnn 〈) ， 那 么 所 有 的 RNN 都 会 固定 在 这 个 单独 设备 上 。 
这 样 就 无 法 继续 了 吗 ? 幸好 不 是 这 样 ! 解决 该 问题 的 诀 穹 是 创建 自己 的 
单元 格 包 闭 器 : 











import tensorflow as tf 


class DeviceCellwrapper(tf.contrib.rnn.RNNCel]): 
def _init (self, device, cell): 
self,. cell = cell 
self,. device = device 


@property 
def state size(self): 
return self. cell.state size 


@property 
def output_size(self): 
return self,._ cell.output_size 


def _ call (self, inputs, state, scope=None): 
with tf.device(self. device): 
return self._ cell(inputs, state, scope) 





除了 将 _call _ QO 方法 包装 在 一 个 设备 块 出 之 外 ， 这 个 包装 器 只 
是 简单 地 代 蔡 每 个 方法 调用 另 一 个 单元 格 。 现 在 ， 你 可 以 将 每 一 层 分 发 
给 不 同 的 GPU 了 。 苹 





devices = ["/gpu:0", "/gpu:1", "/gpu:2"] 

cells = [DeviceCellwrapper(dev,tf.contrib.rnn.BasicRNNCell(num_ 
units=n_neurons)) for dev in devices] 

multi_lJayer_cell = tf.contrib.rnn.MultiRNNCell(cells) 

outputs, states = tf.nn.dynamic_rnn(multi layer_cell, xXx, dtype=tf.float32) 








人 
格 连 接 到 一 个 GPU 的 一 个 张 量 上 。 


应 用 丢弃 机 制 


如 果 构 建 一 个 特别 深 的 RNN， 训 练 集 就 很 可 能 出 现 过 度 拟 合 的 现 
象 。 为 了 阻止 过 上 度 拟 合 ， 一 个 比较 常用 的 方法 是 应 用 丢弃 机 制 ( 如 第 11 
章 介绍 的 ) 。 可 以 与 往常 一 样 ， 简 单 地 在 RNN 之 前 或 者 之 后 添加 一 个 于 
弃 层 ， 但 是 如 果 还 想 在 RNN 层 之 间 应 用 丢弃 机 制 ， 则 需要 使 用 一 个 
DropoutWrapper。 以 下 代码 在 RNN 的 每 个 输入 层 之 间 应 用 丢弃 机 制 ， 丢 
弃 每 层 大 概 50% 的 输入 : 











keep_prob = 0.5 


cell = tf,.contrib,.rnn.BasicRNNCell(num_units=n_neurons) 

cell drop = tf.contrib.rnn.Dropoutwrapper(cell, input_ keep_prob=keep_prob) 
multi_ layer_cell = tf.contrib.rnn.MultiRNNCell([cell drop] * n_layers) 
rnn_outputs, states = tf.nn.dynamic_rnn(multi layer_ cell, xXx, dtype=tf.float32) 





i 注意 ， 通 过 设置 put_keep_prob 的 方法 同样 可 以 对 输出 使 用 丢弃 机 
制 |。 


这 个 代码 的 主要 问题 是 ， 它 不 仪 在 训练 期 间 使 用 丢弃 机 制 ， 还 在 测 
试 期 间 也 使 用 了 ， 这 并 不 是 我 们 想 要 的 结果 《〈 记 住 ， 丢 弃 机 制 只 应 该 在 
训练 期 间 使 用 ) 。 不 幸 的 是 ，DropoutWrapper 不 支持 is_training 占 位 符 ， 
所 以 必须 写 一 个 自己 的 丢弃 包装 类 ， 或 者 对 训练 和 测试 使 用 两 个 图 。 第 
二 种 选择 如 下 上 所 示 : 





import sys 
is_training = (sys.argv[-1] == "train") 
X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 
y = tf.placeholder(tf.float32, [None, n_steps, n_outputs]) 
cell = tf,.contrib,.rnn.BasicRNNCell(num_units=n_neurons) 
if is_training: 
cell = tf,contrib ,rnn.Dropoutwrapper(cel1，input_keep_prob=keep_prob ) 
multi_layer_cell = tf.contrib.rnn.MultiRNNCell([cell] * n_layers) 
rnn_outputs, states = tf.nn.dynamic_rnn(multi layer_cell, xXx, dtype=tf.float32) 
[...] # build the rest of the graph 
init = tf.global variables initializer() 
saver = tf.train.Saver() 


with tf,.Session() as sess: 
if is_training: 
init.run() 
for iteration in range(n_iterations): 
[...] # train the model 
Save_path = saver.save(sess, "/tmp/my_model.ckpt") 
else: 
saver .restore(sess, "/tmp/my_model.ckpt") 
[...] # use the model 





有 了 上 面 的 方法 ， 应 该 可 以 训练 各 种 RNN 网 络 了 ! 不 笠 的 是 ， 如 果 
想 训练 一 个 长 序列 的 RNN， 事 情 会 变 得 有 点 困难 。 我 们 来 看 看 为 什么 会 
这 样 ， 以 及 可 以 做 些 什 么 ? 


多 个 时 间 碗 代 训 练 的 难点 


为 了 训练 一 个 长 序列 的 RNN， 将 训练 运行 很 多 个 时 间 迭 代 ， 使 得 展 
开 的 RNN 成 为 一 个 非常 深 的 网 络 。 与 其 他 深层 神经 网 络 一 样 ， 它 可 能 过 
到 梯度 消失 /爆炸 问题 (如 第 11 章 讨论 的 ) ， 并 且 无 限 训练 下 去 。 我 们 
之 前 讨论 过 的 用 于 缓解 此 问题 的 方法 同样 可 以 用 于 展开 的 深层 RNN: 展 
好 的 初始 化 参数 、 非 饱和 激活 方法 〈 如 ReLU) 、 批 次 归 一 化 、 梯 度 前 
on 
然 会 非常 慢 。 


解决 该 问题 的 最 简单 和 最 普 过 的 方法 是 ， 训 练 期 间 只 在 有 限 的 时 间 
迭代 上 展开 RNN 网 络 。 这 种 方法 被 称 为 通过 时 间 截 断 反 回 传 播 
(truncated backpropagation through time) 。 在 TensorFlow 中 可 以 通过 简 
单 的 截断 输入 序列 实现 该 方法 。 例 如 ， 在 时 间 序 列 预测 问题 中 ， 在 训练 
期 间 人 简单 地 减少 n_steps。 当 然 ， 这 样 存在 的 问题 是 模型 无 法 学 习 长 期 模 
式 。 一 个 解决 方法 是 保证 这 些 缩短 了 的 训练 中 同时 包含 新 数据 和 有 旧 数 
据 ， 这 样 模型 就 可 以 同时 学 习 这 两 种 数据 例如 ， 该 序列 中 可 以 包含 过 
去 五 个 月 的 每 月 数据 、 过 去 五 周 的 每 周 数据 ， 以 及 过 去 五 天 的 每 日 数 





























据 ) 。 但 是 这 个 方案 存在 缺陷 : 如 打 去 年 的 细 粒 度 的 数据 确实 有 用 呢 ? 
i 
结 未 ) ? 


除了 训练 时 间 长 之 外 ， 长 期 运行 的 RNN 所 面临 的 第 二 个 问题 是 第 一 
个 输入 的 记忆 逐渐 衰退 。 实 际 上 ， 由 于 数据 在 通过 RNN 网 络 时 所 经 历 的 
转换 ， 使 得 每 个 时 间 达 代 都 会 丢失 一 些 信 息 。 过 一 段 时 间 后 ，RNN 的 状 
态 中 已 经 失去 了 第 一 个 输入 的 痕迹 。 这 可 能 会 干扰 训练 。 例 如 ， 假 设 分 
析 一 个 很 长 的 影评 ， 它 以 “我 喜欢 这 部 电影 "开始 ， 但 是 之 后 的 评论 列 出 
了 很 多 可 以 使 电影 更 好 的 建议 。 如 果 RNN 和 技 失 了 开始 的 几 个 单词 ， 就 会 
完全 误解 这 个 影评 。 为 了 解决 这 个 问题 ， 引 入 了 很 多 类 型 的 长 期 记忆 单 
元 。 它 们 已 经 被 证 明 非 常 成 功 ， 所 以 那些 基本 的 单元 已 经 不 在 使 用 了 。 
现在 我 们 先 来 看 看 使 用 最 广泛 的 长 期 记忆 单元 : LSTM 单 元 。 


[1] 这 里 使 用 装饰 (decorator) 设计 模式 。 








LSTM 单 元 


长 期 记忆 单元 (LSTM) 于 1997 (https:/goo.gUj39AGv) 山 年 被 
Sepp Hochreiter 和 Ju? rgen Schmidhuber 提 出 ， 然 后 被 Alex Graves、Haim 
Sak (https://goo.g/6BHh81) 乌 和 Wojciech 
Zaremba (https://goo.gl/SZ9kzB) 里 等 人 逐步 改进 。 如 果 将 LSTM 单 元 视 
为 黑 盒 ， 那 么 除了 性 能 比较 好 之 外 ， 它 用 起 来 就 和 一 个 基本 单元 一 样 。 
训练 将 更 快 收 敛 ， 并 且 能 检测 数据 中 的 长 期 依赖 。 在 TensorFlow 中 ， 可 
以 很 容易 地 使 用 BasicLSTM 来 代替 BasicRNNCell; 








lstm cell = tf.contrib.rnn.BasicLSTMCell(num_units=n_neurons) 





LSTM 单 元 管理 着 两 个 向 量 ， 因 为 性 能 的 原因 ， 它 们 默认 是 保持 分 
开 的 。 可 以 通过 创建 时 设置 state_is_tuple=False 来 改变 默认 属性 。 


那么 LSTM 单 元 是 如 何 工 作 的 ? 一 个 基本 的 LSTM 单 元 的 结构 如 图 
14-13 所 示 。 
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图 14-13: LSTM 单 元 


如 果 不 看 框 内 的 内 容 ，LSTM 单 元 看 起 来 就 像 一 个 常规 的 单元 ， 除 
了 其 状态 分 为 两 个 向 量 : h 0、 和 c 心 〈c 代 表 cell) 。 你 可 以 认为 h 6， 
是 短期 状态 ，c 4) 是 长 期 状态 。 


现在 ， 让 我 们 来 打开 盒子 ! 其 关键 思想 是 ， 网 络 可 以 学 习 在 长 期 状 
态 下 什么 要 存储 ， 什 么 要 丢弃 ， 以 及 从 什么 中 读 取 。 随 着 长 期 状态 c c 
1) 从 左 到 右 贯穿 网 络 ， 可 以 看 见 它 首 先 经 过 一 个 起 记 门 有限， 丢弃 一 些 记 
忆 ， 然 后 通过 一 些 和 额外 操作 “通过 输入 门限 选择 增加 记忆 )〉 增 加 一 些 新 
记忆 。c cb 的 输出 被 不 加 任何 操作 地 直接 输出 。 所 以 ， 在 每 个 时 间 迭 
代 ， 一 些 记 忆 被 丢弃 ， 一 些 记忆 被 增加 。 此 外 ， 经 过 额外 操作 ， 长 期 状 
态 被 复制 并 传 入 tanh 函 数 ， 然 后 其 结果 被 输出 门限 过 滤 。 于 是 就 产生 了 
短期 状态 h cb 《〈 它 等 于 时 间 友 代 y cb 的 单元 格 输出 ) 。 现 在 ， 我 们 来 








看 看 新 记忆 从 何 而 来 ， 如 何 工作 。 


首先 ， 当 前 输入 癌 量 x co 和 前 一 个 短期 状态 h ce) 被 输入 到 四 个 不 
同 的 全 连接 层 。 它 们 都 有 不 同 的 目的 : 


: 主 层 是 输出 为 g co 的 层 。 它 的 基本 作用 是 分 析 当 前 输入 x c 和 前 
一 个 短期 状态 h cui) 。 基 本 单元 中 就 只 有 这 一 个 层 ， 它 直接 输出 y o 和 
h 心 。 相 比 之 下 ，LSTM 单 元 没有 直接 输出 ， 而 是 将 部 分 输出 存储 在 长 
期 状态 中 。 

其 他 三 个 层 是 门限 控制 器 。 因 为 使 用 了 人 逻辑 激活 函数 ， 它 们 的 输 
出 范围 在 0 到 1 之 间 。 如 图 14-13 所 示 ， 它 们 的 输出 被 输入 到 元 素 智 能 乘 
ee 

o 二 州 碟 : 


态 记 门限 (由 f co 控制 ) 控制 着 哪些 长 期 状态 应 该 被 丢弃 。 


-输入 门限 (由 i co 控制 ) 控制 看 g co 的 哪些 部 分 会 被 加 入 到 长 期 
状态 《〈 这 就 是 我 们 说 只 是 “部 分 存储 ”的 原因 ) 。 


最后， 输出 门限 “由 o , 控制 ) 控制 着 哪些 长 期 状态 应 该 在 这 个 
时 间 迭 代 被 恋 取 和 输出 (h 和 y 心 ) 。 





简 而 言 之 ，LSTM 单 元 可 以 学 习 识别 重要 输入 《这 是 输入 门限 的 职 
责 ) ， 将 其 存储 到 长 期 状态 中 ， 学 习 需 要 时 保存 它 〈 这 是 筷 记 门限 的 职 
责 ) ， 以 及 学 习 需 要 的 时 候 提 取 它 。 这 就 解释 了 它 为 什么 能 够 成 功 捕 欣 
到 时 间 序 列 中 的 长 期 模式 、 长 文字 、 录 音 等 。 


公式 14-3 总 结 了 如 何 计算 单个 实例 中 单元 在 每 个 时 间 友 代 的 长 期 状 
态 、 短 期 状态 ， 以 及 输出 《整个 小 批 次 的 方程 和 此 也 非常 相似 ) 。 


公式 14-3: LSTM 计 算 
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-Wua，Wa，Wa，W 是 每 一 层 连接 到 输入 向 量 x v 的 权重 矩阵 。 


WE 
一 
Te 





"Whi Whf，Who Whg 是 每 一 层 连 接 到 前 一 个 短期 状态 h (1) 的 权 
重 矩 阵 。 


bi，bf，bo，bs 是 每 一 层 的 偏差 系数 。 注 意 ，TensorFlow 将 bf 初始 化 
为 全 是 1s 的 癌 量 ， 而 不 是 0s。 这 会 阻止 在 训练 开始 时 丢 莽 所 有 东西 。 


蜂 视 孔 连 接 


在 基本 的 LSTM 单 元 中 ， 门 限 控制 器 只 可 以 看 到 输入 x co 和 前 一 个 
短期 状态 h (1，。 通 过 让 它们 接触 到 长 期 状态 来 获取 更 多 的 内 容 或 许 是 
个 不 错 的 主意 。Felix Gers 和 Jiirgen Schmidhuber 于 2000 年 

(https://goo.gl/ch8xz3) 鳃 提出 了 该 想法 。 他 们 提出 了 具有 额外 连接 的 











LSTM 变 体 ， 被 称 为 笑 视 孔 连 接 (peephole _ connections) : 前 一 个 长 期 
状态 c 04.1) 作为 输入 传 入 态 记 门限 和 输入 门限 ， 当 前 的 长 期 状态 c 0、 作 
为 输入 传 入 输出 门限 控制 器 。 


在 TensorFlow 中 实现 颖 视 孔 连接 ， 只 需要 使 用 LSTMCel 代 蔡 
BasicLSTMCell， 并 设置 use_peepholes=True: 





lstm cell = tf.contrib.rnn.LSTMCell(num_units=n_neurons, use_peepholes=True) 








还 有 很 多 LSTM 单 元 的 其 他 变形 。 其 中 最 著名 的 就 是 即将 要 讲 的 
GRU 单 元 。 


[1]1 “Long Short-Term Memory”，S.Hochreiter 和 J.Schmidhuber (1997) 。 

[2] “Long Short-Term Memory Recurrent Neural Network Architectures for 

Large Scale Acoustic Modeling”，H.Sak 等 人 (2014) 。 

[3] “Recurrent Neural Network ”Regularization”，W.Zaremba 等 人 
20157 5 

[4] “Recurrent Nets that Time and Count”，F.Gers 利 

J.Schmidhuber (2000) 。 


GRU 单 元 

2014 年 Kyunghyun Cho 等 人 在 论文 (https:/goo.gl/ZnAEOZ) 山中 提 
出 了 门限 循环 单元 CGRU) 〈 见 图 14-14) 。 他 们 也 在 该 文章 中 介绍 了 
前 面 提 到 的 编码 器 -解码 器 网 络 。 


GRU 单 元 是 LSTM 的 简化 版 本 ， 它 的 表现 和 LSTM 差 不 多 内 〈 这 说 
明了 其 日 益 普 及 的 原因 ) 。 其 主要 简化 了 : 


两 个 状态 问 量 合并 为 一 个 向 量 h cob 。 











图 14-14: GRU 单 元 


一 个 门限 控制 器 同时 控制 筷 记 门限 和 输入 门限 。 如 果 门 限 控制 器 








的 输出 是 1， 那 么 输入 门限 打开 而 忘记 门限 关闭 。 如 果 输 出 是 0， 则 正好 
相反 。 换 句 话 说 ， 无 论 何 时 需要 存储 一 个 记忆 ， 它 将 被 存在 的 位 置 将 首 
先 被 擦 除 。 这 实际 上 是 LSTM 单 元 的 一 个 常见 变 体 。 

:没有 输出 门限 。 在 每 个 时 间 夫 代 ， 输 出 辣 量 的 全 部 状态 被 直接 输 
出 。 然 而 ，GRU 有 一 个 新 的 门限 控制 器 来 控制 前 一 个 状态 的 哪个 部 分 将 
显示 给 主 层 。 

公式 14-4 总 结 了 单个 实例 的 每 个 时 间 迭 代 中 怎么 计算 单元 的 状态 。 


公式 14-4: GRU 计 算 


= o( Ws * Xo + Ws * hy) 

= o(Ws * x0) + Wi ho ) 
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在 TensorFlow 中 创建 一 个 GRU 单 元 极其 简单 : 











gru_cell = tf,.contrib,.rnn.GRUCell(num_units=n_neurons) 





LSTM 或 GRU 是 近 些 年 RNN 获 得 成 功 的 一 个 主要 原因 ， 尤 其 是 在 自 
然 语言 处 理 (NLP) 中 的 应 用 。 


[1| “Learning Phrase Representations Using RNN Encoder-Decoder for 
Statistical Machine Translation”， 开 .Cho 等 人 (2014) 。 
[2] Klaus Greff 等 人 发 表 于 2015 年 的 论文 “LSTM: A Search Space 


Odyssey”(https:/goo.gVhZB4KW) ， 似 乎 显示 了 所 有 LSTM 变 体 的 性 
能 大 体 相 同 。 


目 然 语 言 处 理 


大 多 数 自然 语言 处 理应 用 都 是 《至少 部 分 ) 基于 RNN 的 ， 诸 如 机 器 
翻译 、 自 动 总 结 、 语 法 分 析 、 观 点 分 析 等 。 在 本 章 的 最 后 部 分 ， 我 们 将 
要 看 看 机 器 翻译 模型 是 如 何 工 作 的 。TensorFlow 的 
Word2Vec (https://goo.gl/edArdi) 和 Seq2Seq (https://goo.g/L82gvS) 教 
程 详细 地 介绍 了 这 部 分 内 容 ， 你 应 该 认真 学 习 一 下 。 


单词 仍 入 


在 开始 之 前 ， 我 们 需要 选择 一 个 单词 代表 。 一 个 选择 是 使 用 一 个 
one-hot 问 量 来 代表 每 个 单词 。 假 设 单词 表 有 50000 个 单词 ， 那 么 第 n 个 单 
词 要 使 用 一 个 50000 回 量 代 蔡 ， 除 了 第 n 位 是 1 外 ， 其 他 位 都 是 0。 然 而 ， 
这 么 大 的 词汇 量 使 用 这 种 稀 玻 表示 方式 不 是 很 高 效 。 理 想 情 况 下 ， 我 们 
希望 相似 的 单词 使 用 相似 的 表示 ， 这 样 模型 就 可 以 很 容易 地 推 此 即 彼 ， 
将 学 习 到 的 单词 概括 为 所 有 相似 的 单词 。 例 如 ， 如 果 告 知 模型 drink 
milk” 是 一 个 合法 的 句子 ， 并 且 知 道 “milk” 和 “water” 比 较 相 似 ， 但 是 
和 “shoes” 差 得 很 还， 那么 它 怠 会 知道 江 drink water” 应 该 是 一 个 合法 的 句 
子 ， 而 “I drink shoes” 不 是 合法 的 。 但 是 怎样 才能 得 到 一 个 如 此 有 意义 的 
表示 方式 呢 ? 


最 常见 的 方案 是 ， 将 词汇 表 中 的 每 个 单词 用 小 且 密 集 的 向 量 代表 
(例如 150 维 ) ， 此 方法 称 被 为 朋 入 。 然 后 只 需要 让 神经 网 络 在 训练 期 
间 对 每 个 单词 学 习 一 个 好 的 代 入 即 可 。 在 训练 刚 开 始 的 时 候 ， 肯 入 是 简 
单 的 随机 选择 ， 但 是 随 着 训练 的 进行 ， 反 回 传 播 会 目 动 移动 谍 入 ， 以 帮 
助 神经 网 络 执行 其 任务 。 这 就 意味 着 ， 相 似 的 单词 会 逐渐 地 集中 在 彼此 
之 间 ， 甚 至 最 终 会 以 最 有 意义 的 方式 组 织 起 来 。 例 如 ， 磐 入 最 终 可 能 会 
人 单数 /复数 、 形 容 词 /名 词 等 各 种 轴 放 置 。 结 末 确 实 相当 
惊人 人。 


在 TensorFlow 中 ， 首 先 需 要 为 词汇 表 中 的 每 个 单词 创建 一 个 表示 髓 
入 的 变量 〈 随 机 初始 化 ) : 





























Vocabulary_Ssize = 50000 
embedding_size = 150 
embeddings = tf.Variable( 
tf.random_ uniform( [vocabulary_size, embedding_ size], -1.0, 1.0)) 





现在 ， 假 设 要 将 句子 “I drink milk” 传 入 网 络 。 首 先 ， 应 该 将 句子 分 
解 为 一 系列 已 知 的 单词 。 例 如 ， 可 以 删除 不 必要 的 字符 ， 用 预定 义 的 令 
牌 蔡 换 未 知 的 单词 ， 如 用 [NUM]” 蔡 换 数字 ， 用 *[URL]” 蔡 换 UREL 等 。 

有 旦 有 一 个 已 知 的 单词 列表 ， 可 以 查找 每 个 单词 在 字典 中 的 数字 标识 符 
(从 0 到 49999) ， 例 如 [72，3335，288]。 此 时 ， 使 用 占 位 符 将 这 些 标识 
符 提供 给 TensorFlow， 并 且 应 用 embedding_lookup 〈) 函数 来 得 到 相应 
的 舱 入 : 














train_inputs = tf.placeholder(tf.int32, shape=[None]) # from ids. 
embed = tf.nn.embedding lookup(embeddings, train inputs) # ...to embeddings 





一 旦 模型 学 习 了 良好 的 单词 植 入 ， 那 么 它们 实际 上 可 以 在 任何 NLP 
应 用 中 发 挥 作用 : 毕竟 ， 无 论 是 什么 应 用 ，“milk” 仍 然 比 较 接 
近 “water”， 而 和 : oc :差距 较 大 。 事实 上 ， 你 可 能 希望 下 载 预 训练 的 
| 而 不 是 训练 自己 的 。 正 如 在 重用 预 训 练 层 一 样 (参见 第 11 
， 可 以 选择 冻 经 ” 《例如 ， 创建 谍 入 变量 ) ， 或 者 让 反问 
人 让 反 、 一 种 选择 将 会 加 快 培 训 ， 第 二 二 种 可 能 会 提高 性 











全 可 入 对 于 代表 可 能 EE 占 用 大 量 不 同 值 的 分 类 属性 也 很 有 用 处 ， - 
re 例如 ， 考 虑 职业 、 爱 好 、 荣 看 、 
机 DD 可可。 


我 们 已 经 拥有 了 实现 一 个 机 器 翻译 系统 的 所 有 工具 。 现 在 一 起 看 看 
如 何 实现 吧 。 


用 于 机 占 翻 译 的 编码 右 - 解 码 右 网 络 


我 们 来 看 看 一 个 将 英语 翻译 为 法 语 的 简单 机 器 翻 译 模型 
(https:/goo.gl/0g9zWP) 外 〈 见 图 14-15) 。 


Target Je bs lat 《608S> 
Prediction' Je bois le lalt <608S> 





288 3335 72 0 ~ 2132 21 431 
“milk drink 大 “<qgo> Je bois du lait” 











图 14-15: 一 个 简单 的 机 右 翻 译 模型 


身 语 句子 被 输入 到 编码 器 ， 然 后 解码 器 输出 法 语 翻 译 。 注 意 ， 法 语 
翻译 也 作为 解码 器 的 输入 ， 但 是 回 退 一 步 。 换 句 话 说 ， 解 码 器 的 输入 应 
该 是 它 在 前 一 步 的 输出 (不管 它 实际 输出 了 什么 〉。 第 一 个 单词 给 出 了 
表示 句子 开始 的 令 牌 (例如 ,， “<go>”) 。 解 码 器 被 预期 以 一 个 结束 序列 
(end-of-sequence，EOS) 令 脾 (例如 ，“<eos>”) 来 结束 句子 。 


注意 ， 瑞 文句 子 再 被 输入 到 编码 器 之 前 的 顺序 是 颠倒 的 。 例 如 ， 气 
drink milk” 被 颠倒 为 “milk drink 1”?。 这 是 为 了 保证 英语 句子 的 第 一 个 单 
词 是 最 后 一 个 被 输入 到 编码 器 的 ， 这 很 有 有 用， 因为 它 应 该 是 解码 器 第 一 
个 要 翻译 的 内 容 。 


最 初 ， 每 个 单词 都 使 用 一 个 简单 的 整数 标识 符 代表 例如 ，288 代 

表单 词 <milk") 。 然 后 谋 入 查找 返回 单词 嵌入 〔 如 以 前 所 介绍 的 ， 这 是 
二 个 密集 、 低 维 的 向 量 》。 单词 了 入 才 是 最 终 输 入 到 编码 嘎 和 解码 天 
容 。 


在 每 一 步 中 ， 人 解码 器 输出 词汇 表 中 每 个 单词 的 分 数 ， 然 后 Softmax 
层 将 这 些 分 数 转 换 为 概率 。 例 如 ， 在 第 一 步 中 单词 “Je” 可 能 具有 20% 的 
概率 ，“Tu” 可 能 有 1% 的 概率 等 等 。 最 终 输出 概率 最 高 的 单词 ， 所 以 可 
以 使 用 softmax_cross_entropy_with_logits 〈) 函数 来 训练 模型 。 


注意 ， 在 推理 时 间 《〈 训 练 之 后 ) ， 没 有 提供 给 解码 器 的 最 终 目标 名 
子 。 相 反 ， 只 简单 地 提供 给 它 前 一 步 的 得 出， 如 图 14-16 所 示 《〈 将 需要 
一 个 图 中 没有 显示 的 甬 入 查找) 。 








<g0> 





图 14-16: 在 推理 时 间 将 前 一 步 的 输出 作为 输入 
现在 已 经 有 一 张 蓝 图 。 如 果 浏 览 了 TensorFlow 的 序列 到 序列 教程 ， 
并 读 了 rnn/translate/seq2seq_model.py 里 面 的 代码 ， 可 以 发 现 一 些 重要 区 
列 : 


首先 ， 到 目前 为 止 ， 假 设 所 有 输入 序列 “到 编码 器 和 解码 右 ) 郑 











具有 恒定 长 度 。 但 是 显然 句子 的 长 度 会 有 所 不 同 。 有 几 种 方法 可 以 解决 
这 个 问题 ， 例 如 ， 对 static_ rnn () 和 dynamic_rnn〈) 使 用 
sequence_length 参 数 来 指明 每 个 句子 的 长 度 〈( 如 前 文 所 述 ) 。 然 而 ， 该 
教程 采用 男 一 种 方法 (大 概 是 出 于 性 能 的 考虑 ) : 句子 被 按照 长 度 分 入 
类 似 长 度 的 桶 (bucket) (例如 1 到 6 个 单词 的 句子 被 分 入 男 一 个 桶 ，7 到 
12 个 单词 的 句子 被 分 入 另 一 个 桶 等 名 ) ， 并 且 使 用 特殊 的 填充 令 牌 来 填 
充 短 句子 〈 例 如 ,，“<pad>”) 。 例 如 ，“ drink milk” 会 变 为 “milk drink 
P， 它 的 翻译 会 变 为 "Je bois du lait<eos><pad>”。 当 然 ， 我 们 希望 忽略 
EOS 令 有 牌 后 的 所 有 输出 。 为 此 ， 该 教程 的 实现 使 用 了 一 个 target_weights 
向 量 。 例 如 ， 对 于 目标 句子 “Je bois du lait<eos><pad>”， 其 权重 会 设置 
为 [1.0，1.0，1.0，1.0，1.0，0.0]〈 注 意 ， 权 重 为 0.0 的 部 分 对 应 了 句子 
中 的 填充 令 牌 ) 。 简 单 地 用 目标 权重 乘 以 损失 ， 会 将 EOS 令 牌 后 面 的 单 
词 对 应 的 损失 输出 为 零 。 


其次， 当 输 出 词汇 量 特别 大 时 〈 本 例 就 是 这 种 情况 ) ， 输 出 每 个 
单词 的 概率 就 会 相当 低 。 如 果 目 标 词 汇 包含 50000 个 法 语 单 词 ， 编 码 器 
则 会 输出 50000 维 向 量 ， 然 后 在 如 此 大 的 一 个 向 量 上 计算 softmax 函 数 的 
计算 将 会 特别 密集 。 解 决 这 种 情况 的 方案 之 一 是 使 解码 器 输出 较 小 的 向 
量 ， 例 如 1000 维 癌 量 ， 然 后 使 用 采样 技术 来 估计 损失 ， 而 不 必 在 目标 词 
汇 表 的 每 个 单词 上 计算 它 。 这 种 最 大 采样 〈Sampled ”Softmax) 技术 在 
2015 年 被 Sébastien Jean 等 人 多 提出 。 在 TensorFlow 中 ， 可 以 调用 
sampled_softmax_loss () 函数 来 使 用 它 。 


.再 次 ， 本 教程 的 实现 使 用 了 一 个 注意 力 机 制 (attention 
mechanism) ， 让 解码 右 舌 视 输入 序列 的 内 容 。 注 意 力 增强 的 RNN 超 出 
了 本 书 的 范围 ， 如 果 有 兴趣 ， 这 里 有 一 些 使 用 注意 力 进行 机 器 翻译 
(https:/goo.gl/8RCous) 饵 、 机 器 阅读 (https:/goo.gl1/X0ONau8) 器 和 图 
像 捕 捉 (https://goo.g/xmhvfK) 叫 等 的 相关 论文 。 


最终， 教程 的 实现 使 用 了 tt.nn.legacy_seq2sedq 模 型 ， 该 模块 提供 了 
各 种 轻松 构建 编码 器 -解码 器 模型 的 工具 。 例 如 ， 
embedding_rnn_seq2seq〈() 函数 提供 了 一 个 可 以 自动 处 理 单词 租 入 的 简 
单 编码 器 -解码 器 模型 ， 如 图 14-15 所 示 。 该 代码 可 以 被 迅速 更 新 ， 以 便 
使 用 新 的 tf.nn.seq2seq 模 块 。 


现在 已 经 有 了 序列 到 序列 教程 实施 需要 的 所 有 工具 。 掌 握 它 ， 去 训 
练 一 个 自己 的 英语 到 法 语 的 翻译 器 吧 ! 











[1] 更 多 详细 信息 ， 参 见 Christopher Olah 的 著名 博客 
(https://goo.gl/5rLNTj) ， 或 者 Sebastian Ruder 的 一 系列 博客 
(https://goo.gl/ojJjiE) 。 

[2] “Sequence to Sequence learning with Neural Networks”，I.Sutskever 等 

人 (2014) 。 

[3] 教程 中 使 用 的 bucket 的 大 小 不 同 。 

[4] “On Using Very Large Target Vocabulary for Neural Machine 

Translation”，S.Jean 等 人 (2015) 。 

[5|] “Neural Machine Translation by Jointly Learning to Align and 

Translate”，D.Bahdanau 等 人 (2014) 。 

[6] “Long Short-Term Memory-Networks for Machine Reading”, 

J.Cheng (2016) 。 

[71 “Show, Attend and Tell: Neural Image Caption Generation with Visual 

Attention”，K.Xu 等 人 (2015) 。 


练习 


1. 你 能 想到 一 个 序列 到 序列 的 RNN 应 用 吗 ? 一 个 序列 到 向 量 的 RNN 
昵 ? 一 个 回 量 到 序列 的 RNN 呢 ? 


2. 人 们 为 什么 使 用 编码 堪 - 解 码 器 RNN 而 不 是 纯 序 列 到 序列 RNN 来 
进行 目 动 翻译 ? 


3. 怎 么 样 将 卷 积 神经 网 络 和 RNN 结 合 起 来 进行 视频 分 类 ? 


4. 在 构建 RNN 时 使 用 dynamic_rnn 〈) 而 不 是 static_ rnn 〈) 的 优势 是 
什么 ? 


5. 如 何 处 理 变 长 输入 序列 ? 变 长 输出 序列 又 会 怎样 ? 
6. 在 多 个 GPU 之 间 分 配 训 练 和 执行 层次 RNN 的 常见 方式 是 什么 ? 


7.Hochreiter 和 Schmidhuber 在 他 们 关于 LSTM 的 论文 里 使 用 了 磐 入 式 
的 Reber 语 法 。 它 们 是 一 些 用 来 生成 字符 串 ( 例 
如 ，“BPBTSXXVPSEPE”) 的 人 造 语法 。 查 看 Jenny Orr 对 这 个 主题 的 介 
绍 〈https://goo.g/7CkKNRn) 。 选 择 一 个 特定 的 租 入 Reber 语 法 ， 然 后 训 
练 一 个 RNN 来 识别 一 个 字符 串 是 人 否 符合 该 语法 。 首 先 需 要 编写 一 个 函数 
来 生成 训练 批 次 数据 ， 其 中 50% 的 字符 串 符合 该 语法 ， 男 外 的 50% 不 符 


口 o 








8. 解 决 “How much did it rain? II”Kaggle 比 赛 
(https://goo.g/0DS5Xe) 问题 。 这 是 一 个 时 间 序 列 预测 任务 : 已 知 一 个 
偏振 雷达 值 ， 然 后 要 求 预 测 每 小 时 雨量 总 数 。Luis Andre Dutra e Silva 对 
他 曾经 在 比赛 中 获得 第 二 的 技术 给 出 一 些 有 趣 的 见解 
Chttps:/goo.gIfTA90W) 。 特 别 是 ， 使 用 了 两 个 LSTM 层 组 成 了 一 个 
RNN。 








9. 通 读 TensorFlow 的 Word2Vec 教 程 〈https:Wgoo.gl/edArdi) 来 创建 
单词 嵌入 ， 然 后 通读 Seq2Seq 教 程 (https://goo.gVL82gvS〉 训练 一 个 英 
语 到 法 语 的 翻译 系统 。 


练习 的 解决 方案 详 见 附录 A。 


第 15 草 ” 目 动 编码 帮 


目 动 编码 器 是 能 够 在 无 须 任何 监督 〈 例 如， 训练 数据 集 没 有 任何 标 
记 ) 的 情况 下 学 习 有 效 表示 输入 数据 《〈 称 为 编码 ) 的 人 工 神经 网 络 。 这 
种 编码 通常 比 输入 数据 的 维度 低 得 多 ， 使 得 自动 编码 可 以 用 来 降低 维度 
〈 见 第 8 音 ) 。 更 重要 的 是 ， 目 动 编码 器 作为 强大 的 特征 检测 右 ， 可 以 
用 于 深层 神经 网 络 的 无 监督 训练 〈 如 第 11 章 所 讨论 的 ) 。 最 后 ， 它 们 能 
够 生产 与 训练 数据 非常 相似 的 新 数据 ;这 被 称 为 生成 模型 。 例 如 ， 使 用 
面部 图 片 训练 目 动 编码 器 ， 然 后 它 可 以 生成 新 的 面部 图 片 。 


令 人 惊讶 的 是 ， 目 动 编码 器 通过 简单 地 学 习 将 它们 的 输入 复制 到 输 
出 来 工作 。 这 听 起 来 像 是 一 个 微不足道 的 工作 ， 但 是 我 们 将 看 到 各 种 方 
式 的 网 络 限制 使 得 它 变 得 相当 困难 。 例 如 ， 可 以 限制 内 部 表示 的 尺寸 ， 
或 者 癌 输 入 添加 噪音 并 训练 网 络 恢复 原始 输入 。 这 些 限 制 阻 止 了 自动 纺 
码 絮 和 直接 将 输入 复制 到 输出 ， 从 而 迫使 它们 学 习 有 效 代 表 数 据 的 方法 。 
简 而 言 之， 编码 是 目 动 编 色 恬 兰 试 在 东 些 限制 下 学 习 认 证 方法 的 附属 
HHo 


























本 章 将 深入 介绍 目 动 编码 器 的 工作 原理 ， 可 以 施加 什么 类 型 的 约 
束 ， 以 及 如 何 使 用 TensorFlow 实 现 它 们 ， 无 论 是 用 于 降 品 、 特 征 提取 、 
无 监督 预 训练 ， 还 是 生成 模型 。 


局 效 的 数据 表示 
下 面 的 哪个 序列 比较 容 多 记忆? 
.40，27，25，36，81，57，10，73，19，68 


50, 25, 76, 38, 19, 58, 29, 88, 44, 22, 11, 34, 17, 52, 
26，13，40，20 


年 一 看 ， 似 乎 第 一 个 序列 要 更 加 容易 一 点 ， 因 为 它 看 起 来 短 很 多 。 
但 是 ， 如 果 仔 细 观 察 第 二 个 序列 ， 你 可 能 注意 到 它 遵 从 两 个 简单 地 规 
则 : 偶数 后 的 数 是 它们 的 一 半 ， 奇 数 后 的 数 是 它们 的 三 倍加 一 〈 这 是 一 
个 著名 的 数列 ， 被 称 为 冰霜 数列 ) 。 一 旦 注意 到 这 个 模式 ， 第 二 个 序列 
就 会 比 第 一 个 序列 容易 记忆 ， 因 为 你 只 需要 记 住 两 个 规则 : 第 一 个 数字 
和 序列 的 长 度 。 如 果 能 够 迅速 而 容易 地 记 住 很 长 的 序列 ， 你 可 能 就 不 会 
在 意 第 二 个 序列 是 否 存在 模式 ， 而 只 需要 在 心中 记 住 每 个 数字 即 可 。 但 
是 事实 上 ， 记 住 长 序列 非常 困难 ， 这 使 得 识别 模式 变 得 很 有 用 ， 和 希望 这 
ee 
直人 侣 荚 。 


20 世 纪 70 年 代 初 ，William Chase 和 Herbert Simon 研 究 了 记忆 、 感 知 
和 模式 匹配 之 间 的 关系 。 出 他 们 观察 到 专家 级 的 棋 手 能 够 在 5 秒 内 记 住 
游戏 中 所 有 棋子 的 位 置 ， 这 是 绝 大 多 数 人 望尘莫及 的 。 然 而 ， 这 种 情况 
只 发 生 在 这 些 棋 子 被 放置 在 真实 游戏 中 的 实际 位 置 上 ， 而 不 是 随机 放置 
的 位 置 。 国 际 象棋 专家 并 不 比 你 我 有 更 好 的 记忆 力 ， 只 是 因为 他 们 有 丰 
富 的 经 验 ， 对 象棋 模式 更 加 容易 记忆 。 注 意 ， 模 式 帮 助 他 们 有 效 地 存储 


Se 
信息 。 


与 记忆 试验 中 的 围棋 选手 一 样 ， 目 动 编码 右 查 看 输入 ， 将 它们 转化 
为 有 效 的 内 部 表示 ， 然 后 输出 一 些 看 起 来 和 输入 很 像 的 东西 。 一 个 上 自动 
编码 项 总 是 由 两 部 分 组 成 : 第 一 部 分 是 将 输入 转化 为 内 部 表示 的 编码 器 
(或 者 称 为 识别 网 络 ) ， 第 二 部 分 是 将 内 部 表示 转换 为 输出 的 解码 需 
(或 者 称 为 生成 网 络 ) ， 见 图 15-1。 


自动 编码 器 通常 和 多 层 感知 器 (MLP， 参 见 第 10 章 ) 具有 相同 的 架 
构 ， 不 同 之 处 在 于 目 动 编码 器 的 输出 层 的 神经 元 数量 必须 等 于 输入 层 的 
数量 。 在 这 个 例子 中 ， 只 有 一 个 由 两 个 神经 元 (编码 器 〉 组 成 的 隐藏 





























层 ， 以 及 一 个 由 三 个 神经 元 〈 解 码 器 ) 组 成 的 输出 层 。 输 出 通常 被 称 为 
重建 ， 因 为 目 动 编码 圳 答 试 重建 输入 ， 并 且 成 本 图 数 包 合 重 建 损 失 ， 当 
重建 与 输入 不 同时 ， 该 损失 会 惩 避 模型 。 














图 15-1: 国际 象棋 记忆 实验 《〈 左 ) 和 一 个 简单 的 上 自动 编码 右 《〈 右 ) 
因为 内 部 表示 的 维度 低 于 输入 数据 〈( 它 是 2D 而 不 是 3D)〉 ， 因 此 和 目 





动 编码 器 不 完整 。 不 完整 的 目 动 编码 需 不 能 简单 地 复制 输入 到 纺 码 ， 但 
是 它 必须 找到 一 种 输出 其 输入 副本 的 方法 。 它 被 强制 学 习 输 入 数据 中 最 
重要 的 功能 (并 删除 不 重要 的 功能 ) 。 让 我 们 看 看 如 何 实现 一 个 用 来 降 
低 维 度 的 非常 简单 的 不 完整 目 动 编码 需 。 


[11 “Perception in chess”, W.Chase 和 H.Simon (1973) 。 








使 用 不 完整 的 线性 自动 编码 器 实现 PCA 


如 果 目 动 编码 絮 仅 使 用 线性 激活 ， 并 且 成 本 函数 是 均 方 误差 
CMSE) ， 则 表示 和 它 可 以 用 来 实现 主要 组 件 分 析 《〈 见 第 8 草 ) 。 


以 下 代码 构建 了 一 个 简单 的 线性 目 动 编码 器 ， 用 于 执行 PCA， 将 3D 
数据 集 投影 为 2D: 





import tensorflow as tf 
from tensorflow.contrib.1layers import fully_connected 


n_inputs 
n_hidden 


3 # 3D inputs 
2 # 2D codings 


n_outputs = n_inputs 

Jearning_rate = 0.01 

X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 

hidden = fully_connected(X, n_hidden, activation_ fn=None) 
outputs = fully_connected(hidden, n_outputs, activation_fn=None) 


reconstruction loss = tf,.reduce mean(tf.square(outputs - X)) # MSE 


optimizer = tf.train.AdamOptimizer(learning_rate) 
training_op = optimizer.minimize(reconstruction_loss) 


init = tf.global variables _ initializer() 








与 以 前 章节 所 构建 的 MLP 相 比 ， 这 段 代 码 并 没有 多 大 的 不 同 。 需 要 
注意 的 有 两 反 : 


-输出 的 数量 等 于 输入 的 数量 。 

:为 了 执行 简单 的 PCA， 我 们 设置 activation_fn=None( 即 ， 所 有 的 
神经 元 是 线性 的 ) ， 并 且 成 本 函数 是 MSE。 很 快 我 们 就 会 看 到 更 加 复杂 
的 自动 编码 器 。 


现在 让 我 们 来 加 载 数 据 集 ， 在 训练 集 上 训练 模型 ， 并 使 用 该 模型 来 
对 测试 集 进行 编 码 〈 即 ， 将 其 投影 为 2D 数 据 ): 





Xx train, Xx test = [...] # load the dataset 


n_iterations = 1000 


codings = hidden # the output of the hidden layer provides the codings 


with tf.Session() as Sess : 
init.run() 
for iteration in range(n_ iterations): 
training_op.run(feed_ dict={X: Xx train}) # no labels (unsupervised) 
codings_val = codings.eval(feed dict={X: XxX_test}) 





图 15-2 显 示 了 原始 的 3D 数 据 集 ( 左 侧 ) 和 自动 编码 器 隐藏 层 的 输出 
( 即 编 码 层 ， 如 图 右 侧 所 示 〉。 可 以 看 到 ， 上 自动 编码 器 找到 了 最 好 的 
2D 平 台 来 展现 数据 ， 尺 可 能 多 地 保留 数据 的 又 异性 (正如 PCA 一 样 )。 





原始 3D 数据 集 具有 最 大 方差 的 2D 投影 





~ 
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图 15-2: 不 完整 的 线性 自动 编码 器 实现 的 PCA 


栈 却 目 动 编码 需 


与 我 们 之 前 讨论 的 其 他 神经 网 络 一 样 ， 自 动 编码 右 可 以 有 多 个 隐藏 
层 。 在 这 种 情况 下 ， 它 被 称 为 栈 式 自 动 编码 絮 〈 或 者 深度 自动 编码 
器 ) 。 增 加 更 多 的 层 帮 助 目 动 编码 器 学 习 更 加 复杂 的 编码 。 然 而 ， 需 要 
小 心 的 是 ， 不 要 让 目 动 编码 器 变 得 太 强大 。 想 象 一 下 ， 编 码 器 强大 到 只 
古 学 习 将 每 个 输入 映射 到 任意 单个 数字 上 【〈 解 码 喜 学 习 翻转 映射 ) 。 显 
然 ， 这 样 的 上 自动 编码 器 将 完美 地 重建 训练 数据 ， 但 是 在 这 个 过 程 中 没有 
任何 有 效 的 数据 表示 《并 且 不 可 能 推广 到 新 的 实例 ) 。 


栈 式 目 动 编码 喜 的 结构 通常 对 称 于 中 央 隐 藏 层 〈 编 码 层 ) 。 为 了 简 
单 起 见 ， 它 看 起 来 像 一 个 三 明治 。 例 如 ， 一 个 MNIST 的 目 动 编码 器 〈 见 
第 3 章 ) 可 能 有 784 个 输入 ， 随 后 是 一 个 有 300 个 神经 元 的 隐藏 层 ， 然 后 
是 一 个 有 150 个 神经 元 的 中 央 隐 藏 层 ， 然 后 是 一 个 有 300 个 神经 元 的 隐藏 
最 后 是 一 个 有 784 个 神经 元 的 输出 层 。 这 个 栈 式 目 动 编码 器 如 图 15- 
3 所 不 。 





























图 15-3: 栈 式 目 动 编码 器 


TensorFlow 实 现 


可 以 像 实现 一 个 常规 的 深度 MLP 一 样 实现 一 个 栈 式 自动 编码 器 。 特 
别 是 ， 可 以 使 用 我 们 在 第 11 章 训练 深度 网 络 的 技术 实现 。 例 如 ， 以 下 代 
码 使 用 He 初始 化 ，ELU 激 活 函数 ， 以 及 上 2 正则 化 构建 了 一 个 MNIST 栈 
式 自 动 编码 器 。 除 了 没有 标签 外 (没有 y) ， 代 码 看 起 来 非常 熟悉 : 





n_inputs = 28 * 28 # for MNIST 


n_hidden1 = 300 

n_hidden2 = 150 # codings 
n_hidden3 = n_hidden1 
n_outputs = n_inputs 


lJearning_rate = 0.01 
]12_reg = 0.001 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 
with tf,contrib framework.arg_scope( 
[fully_connected], 
activation_fn=tf.nn.elu, 
weights_initializer=tf.contrib.layers.variance_scaling_ initializer(), 
weights_regularizer=tf.contrib.layers.]12_regularizer(12_reg)): 
hidden1 = fully_connected(X, n_hidden1) 


hidden2 = fully_connected(hidden1，n_hidden2) # codings 
hidden3 = fully_connected(hidden2, n_hidden3) 
outputs = fully_connected(hidden3, n_outputs, activation_ fn=None) 


reconstruction loss = tf.reduce mean(tf,.square(outputs - X)) # MSE 


reg_losses = tf.get collection(tf.GraphKeys .REGULARIZATION_LOSSES) 
loss = tf.add_n([reconstruction loss] + reg_losses) 


optimizer = tf.train.AdamOptimizer(learning_rate) 
training_op = optimizer.minimize(loss) 


init = tf.global variables_initializer() 





你 可 以 正常 地 训练 模型 。 注 意 ， 没 有 使 用 数字 标签 (y_batch)。 





n_epochs = 5 
batch_size = 150 


with tf.Session() as sess: 
init.run() 
for epoch in range(n_epochs): 
n_batches = mnist.train.num examples // batch_size 
for iteration in range(n_batches): 
X_batch，y_batch = mnist.train.next_batch(batch_size) 
sess.run(training_op, feed dict={X: XxX_batch}) 





权重 绑 定 


当 目 动 编码 右 和 我 们 刚刚 构建 的 那样 严格 对 称 时 ， 一 种 常见 的 技术 
是 将 解码 层 的 权重 和 编码 层 的 权重 联系 起 来 。 这 种 方式 将 模型 的 权重 减 
半 ， 提 高 训练 速度 ， 限 制 了 过 度 配置 的 风险 。 有 具体 而 言 ， 如 果 自 动 编码 

器 总 共有 N 层 《输入 层 不 计算 在 内 ) ， Wi 代码 第 LL 层 的 连接 权重 〈 例 
如 第 第 一 层 是 输入 层 ， 第 N/2 层 是 编码 层 ， 第 第 N 屋 是 输出 层 ) 》 然后 解 
码 层 的 权重 可 以 简单 地 定义 为 ; WNTN=WwWz (其 中 ，L=1，2， 
N/2，) 。 


不 幸 的 是 ， 使 用 TensorFlow 的 fully_connected 〈) 函数 实现 公 重 细 
ee 手动 定义 这 些 层 更 加 容易 一 点 。 代 码 最 终 显 得 更 
[0D 几 长 : 




















activation = tf.nn.elu 
regularizer tf.contrib.1layers.12_regularizer(12_reg) 
initializer tf.contrib.1layers.variance_scaling_initializer() 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 


weights1_init 
weights2_init 


initializer([n_inputs, n_hidden1]) 
initializer([n_hiddeni1, n_hidden2]) 


weights1i = tf.Variable(weights1 init, dtype=tf.float32, name="weights1") 
weights2 = tf.Variable(weights2_ init, dtype=tf.float32, name="weights2") 
weights3 = tf.transpose(weights2, name="weights3") # tied weights 
weights4 = tf.transpose(weightsi1i, name="weights4") # tied weights 
biases1 = tf.Variable(tf.zeros(n_ hidden1), name="biases1") 

biases2 = tf.Variable(tf.zeros(n_hidden2), name="biases2") 

biases3 = tf.Variable(tf.zeros(n_hidden3), name="biases3") 

biases4 = tf.Variable(tf.zeros(n_outputs), name="biases4") 

hidden1 = activation(tf.matmul(X, weights1) + biases1) 

hidden2 = activation(tf.matmul(hiddeni, weights2) + biases2) 

hidden3 = activation(tf.matmul(hidden2, weights3) + biases3) 

outputs = tf.matmul(hidden3, weights4) + biases4 


reconstruction loss = tf.reduce mean(tf,.square(outputs - Xx)) 
reg_loss = regularizer(weights1) + regularizer(weights2) 
lJoss = reconstruction_loss + reg_loss 


optimizer = tf.train.AdamOptimizer(learning_rate) 
training_op = optimizer .minimize(1oss) 


init = tf.global variables_ initializer() 





这 些 代 码 很 简单 ， 但 是 有 几 个 重要 事情 需要 注意 : 


:第 一 ，weights3 和 weights4 不 是 变量 ， 它 们 分 别 是 weights2 和 





weights1 的 转 置 〈 它 们 被 “ 绑 定 ”在 一 起 ) 。 


第 二 ， 因 为 它们 不 是 变量 ， 所 以 没有 必要 进行 正则 化 : 只 正则 化 
weights1 和 weights2 。 


三 ， 偏 置 项 从 来 不 会 被 绑 定 ， 也 不 会 被 正则 化 。 
一 次 训练 一 个 目 动 编码 器 
相 比 于 像 我 们 这 样 一 次 训练 整个 栈 式 目 动 编码 器 ， 一 次 训练 一 个 单 


独 的 目 动 编码 器 会 快 很 多 ， 然 后 将 它们 堆 生 为 一 个 栈 式 目 动 编码 器 ( 因 
此 而 得 名 ) ， 如 图 15-4 所 示 。 这 种 方法 对 深层 目 动 编码 器 尤其 有 用 。 











阶段 1 阶段 2 阶段 3 
训练 第 一 个 自动 编码 器 训练 第 二 个 自动 编码 器 本 式 自动 编码 器 


图 15-4: 一 次 训练 一 个 上 自动 编码 器 








在 训练 的 第 一 阶段 ， 第 一 个 自动 编码 器 学 习 重 现 输入 
段 ， 第 二 个 自动 编码 器 学 习 重建 第 一 个 自动 编码 器 隐藏 层 的 输出 ， 
终 ， 用 这 些 所 有 的 目 动 编码 器 构建 了 一 个 大 三 明治 ， 如 图 154 所 示 
( 即 ， 首 先 堆 共 各 个 上 自动 编码 器 的 隐藏 层 ， 然 后 输出 层 将 其 顺序 反 
转 ) 。 这 样 束 得 到 了 最 终 的 栈 式 目 动 编码 器 。 用 这 种 方式 ， 可 以 轻松 地 








训练 更 多 的 目 动 编码 费 ， 来 构建 一 个 非 第 深层 的 栈 式 日 动 编码 絮 。 


为 了 实现 这 种 多 阶段 训练 算法 ， 最 简单 的 方法 是 对 每 个 阶段 使 用 不 
同 的 TensorFlow 图 ， 只 需 通过 它 来 运行 训练 集 并 捕获 隐藏 层 的 输出 。 访 
输出 随后 作为 下 一 个 自动 编码 器 的 训练 集 。 一 旦 用 这 种 方式 对 所 有 的 自 
动 编码 器 都 进行 了 训练 ， 只 需 复 制 每 个 自动 编码 占 的 权重 和 偏 置 系数 ， 
并 使 用 它们 构建 栈 式 目 动 编码 器 。 实 现 方式 非常 简单 ， 不 在 这 里 歼 述 ， 
请 查看 Jupyter 笔 记 本 里 面 的 代码 (https://github.com/ageron/handson- 
ml) 作为 实例 。 


为 外 一 种 途径 是 使 用 一 个 包含 整个 栈 式 上 自动 编码 器 的 单个 图 表 ， 表 
加 上 一 些 为 了 执行 每 个 训练 阶段 的 额外 操作 ， 如 图 15-5 所 示 。 








阶段 1 阶段 2 
训练 操作 训练 操作 









MSE (输出 -输入 ) 





MSE (隐藏 层 3- 隐藏 后 





阶段 1 输出 


\ 


相同 的 参数 





A 在 阶段 2 期间 
- 居 本 线 





图 15-5: 训练 栈 式 目 动 编码 器 的 单个 图 表 





这 里 需要 一 扩 解 释 : 


图表 的 中 间 列 是 完全 栈 式 目 动 编码 器 。 这 部 分 可 以 在 训练 后 使 


: 左 列 是 第 一 阶段 训练 需要 的 一 系列 操作 。 它 创造 了 一 个 绕 过 第 二 
个 和 第 三 个 隐藏 层 的 输出 层 。 这 个 输出 层 和 栈 式 上 自动 编码 器 分 享 相同 的 
权重 和 偏差 系数 。 在 其 之 上 是 训练 操作 ， 则 在 使 得 输出 尽 可 能 地 接近 输 
入 。 因 此 ， 该 阶段 将 为 第 一 个 隐藏 居 和 输出 层 〈 即 第 一 个 自动 编码 器 ) 
训练 权重 和 偏差 系数 。 


- 右 列 是 第 二 阶段 训练 需要 的 一 系列 操作 。 其 训练 操作 上 则 在 使 得 第 
二 个 隐藏 层 的 输出 尽 可 能 与 第 一 个 隐藏 层 的 输出 相似 。 注 意 ， 必 须 在 运 
行 第 二 阶段 时 冻结 第 一 隐藏 层 。 这 个 阶段 将 训练 第 二 个 和 第 三 个 隐藏 层 
( 即 第 二 个 自动 编码 器 〉 的 权重 和 偏 莽 系数 。 


TensorFlow 代 人 码 如 下 : 








[...] # Build the whole stacked autoencoder normally. 
# In this example, the weights are not tied. 
optimizer = tf.train.AdamOptimizer(learning_rate) 


with tf.name_scope("phase1"): 
phase1 outputs = tf.matmul(hiddeni1, weights4) + biases4 
phase1 reconstruction loss = tf.reduce mean(tf,square(phase1 outputs - Xx)) 
phasel1 reg loss = regularizer(weights1) + regularizer (weights4) 
phase1 loss = phasel1 reconstruction_ loss + phasei1 reg_loss 
phasel1_ training_op = optimizer.minimize(phase1_ loss) 


with tf.name_scope("phase2"): 
phase2_reconstruction loss = tf.reduce mean(tf,square(hidden3 - hidden1)) 
phase2_reg loss = regularizer(weights2) + regularizer (weights3) 
phase2_ loss = phase2 reconstruction_loss + phase2 reg_loss 
train_vars = [weights2, biases2, weights3, biases3] 
phase2_training_op = optimizer.minimize(phase2_ loss, var_list=train_vars) 





第 一 阶段 很 简单 : 创造 了 一 个 忽略 第 二 个 和 第 三 个 隐藏 层 的 输出 
层 ， 然 后 构建 训练 操作 来 最 小 化 输入 和 输出 之 间 的 距离 〈 加 上 一 些 正则 
人 


第 二 阶段 增加 了 最 小 化 隐藏 层 3 和 隐藏 层 1 输出 之 间 的 距离 所 需要 的 
操作 (也 有 一 些 正则 化 ，。 更 重要 的 是 ， 我 们 为 minimize 〈) 方法 提供 
了 可 训练 的 变量 列表 ， 确 保 忽 略 weightsl1 和 biasesl1; 以 便 在 第 二 阶段 有 











效 地 冻结 隐藏 层 1。 


在 执行 阶段 ， 需 要 做 的 所 有 事情 是 在 第 一 阶段 训练 操作 数 次 ， 然 后 
执行 第 二 阶段 训练 操作 更 多 次 。 








猴 因 为 在 第 一 阶段 隐藏 层 1 被 冻结 ， 所 以 对 于 任意 给 定 的 训练 实 
例 它 的 输出 总 是 相同 的 。 为 了 避免 需要 在 每 个 单独 的 时 间 扣 重新 计算 隐 
藏 层 1 的 输出 ， 可 以 在 第 一 阶段 结束 的 时 候 为 整个 训练 集 计算 它 ， 然 后 
直接 在 第 二 阶段 馈送 隐藏 层 1 的 输出 缓存 。 这 将 有 很 多 的 性 能 提升 。 


重建 可 视 化 
保证 目 动 编码 器 被 合适 训练 的 一 种 方法 是 比较 输入 和 输出 。 它 们 必 


etl 差异 应 该 是 一 些 不 重要 的 细节 。 我 们 来 绘制 两 个 随机 数字 
及 其 重建 : 





n_test_digits = 2 
X_test = mnist.test.images[:n_test_ digits] 


with tf,Sesslion() as sess: 
[...] # Train the Autoencoder 
outputs_val = outputs.eval(feed dict={X: Xx_test}) 


def plot_image(image, shape=[28, 28]): 
plt.imshow(image.reshape(shape), cmap="Greys", interpolation="nearest") 
plt.axis("off") 
for digit_index in range(n_test digits): 
plt.subplot(n test digits, 2, digit index * 2 + 1) 
plot_image(X test[digit_index]) 
plt.subplot(n test digits, 2, digit _ index * 2 + 2) 
plot_image(outputs val[digit_index]) 





图 15-6 展 示 了 结果 图 片 。 


7 7 
LL 


图 15-6: 原始 数字 〈 左 ) 和 它们 的 重建 ( 右 ) 


看 起 来 十 分 相似 。 所 以 自动 编码 旨 已 经 学 会 了 重 现 其 输入 ， 但 是 它 
是 否 学 会 了 有 用 的 特征 ? 让 我 们 来 看 看 。 


特征 可 视 化 


一 旦 你 的 目 动 编码 需 学 会 了 某 些 特征 ， 你 可 能 想 看 看 它们 。 有 各 种 
技术 可 以 满足 你 的 愿望 。 其 中 ， 最 简单 的 技术 是 考虑 隐藏 层 的 每 个 神经 
元 ， 然 后 找到 激活 它 最 多 的 训练 实例 。 该 技术 对 顶层 的 隐藏 层 尤 其 有 
用 ， 因 为 它们 经 党 捕获 相对 大 的 特征 ， 可 以 容易 地 从 一 组 包含 它们 的 训 
练 实 例 中 发 现 。 例 如 ， 如 果 一 个 神经 元 在 看 到 图 片 中 有 猫 时 被 强烈 激 
活 ， 那 么 很 明显 激活 它 的 照片 大 多 数 都 包含 猫 。 然 而 ， 对 于 比较 低 的 隐 
藏 屋 ， 该 拉 术 束 不 是 很 奏效 ， 因 为 特征 相对 比较 小 而 且 更 抽象 ， 所 以 通 
常 很 难 准确 地 了 解 神经 元 是 如 何 被 激活 的 。 


我 们 来 看 看 另 一 种 技术 。 对 于 第 一 个 隐藏 层 的 每 个 神经 元 ， 可 以 创 
建 一 个 图 像 ， 其 中 每 一 个 像 系 的 强度 代表 了 连接 到 给 定神 经 元 的 权重 。 
例如 ， 如 下 代码 展示 了 第 一 个 隐藏 层 的 5 个 神经 元 学 到 的 特征 : 


























with tf.Session() as sess: 
[...] # train autoencoder 


weights1 val = weights1.eval() 


for i in range(5): 





plt.subplot(1, 5, i + 1) 
plot_image(weights1 val.T[i]) 


你 可 能 会 得 到 如 图 15-7 所 示 的 低层 特征 。 


一 
1 
下 
上 
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图 15-7: 第 一 个 隐藏 层 的 神经 元 学 习 到 的 特征 


前 四 个 特征 对 应 于 小 块 特征 ， 第 五 个 特征 在 寻找 垂直 笔画 (注意 ， 
这 些 特 征 来 自 于 后 面 将 要 讨论 的 堆 登 去 品目 动 编码 器) 。 


男 外 一 种 技术 是 癌 目 动 编码 如 馈送 随机 输入 图 像 ， 测 量 你 感 兴趣 的 
神经 元 的 激活 ， 然 后 执行 反 回 传播 ， 以 使 得 神经 元 激活 更 多 的 方式 调整 
输入 图 像 。 如 采 友 代 多 次 《性 能 逐渐 上 升 ) ， 图 像 逐 渐变 为 令 神经 元 兴 
奋 的 图 像 。 这 是 一 种 非常 有 用 的 技术 来 可 视 化 神经 元 寻找 的 输入 类 型 ， 


最 终 ， 如 宋 使 用 目 动 编码 喜来 执行 无 监督 的 预 训练 ， 例 如 分 类 器 。 
ee 0 军 有 用 的 方法 是 测量 分 类 器 的 
性 能 。 

















使 用 堆 装 的 上 自动 编码 占 进 行 无 监控 的 预 训练 


正如 我 们 在 第 11 章 所 讨论 的 ， 如 果 正 在 执行 一 个 复杂 的 监督 任务 ， 
但 是 没有 足够 多 的 已 标记 训练 数据 ， 解 决 方案 之 一 是 找到 一 个 执行 类 似 
任务 的 神经 网 络 ， 然 后 重用 它 的 底层 。 这 样 就 可 以 使 用 较 少 的 训练 数据 
来 训练 高 性 能 模型 ， 因 为 你 的 神经 网 络 不 用 学 习 所 有 的 低层 特征 ， 它 将 
重用 现 有 网 络 的 特征 探测 器 。 


类 似 地 ， 如 果 你 有 一 个 大 数据 集 ， 但 是 大 部 分 数据 都 没有 被 标记 ， 
可 以 首先 使 用 所 有 数据 训练 一 个 堆 革 的 自动 编码 占 ， 然 后 重用 较 低层 来 
为 你 的 实际 任务 创建 一 个 神经 网 络 ， 并 使 用 已 标记 的 数据 来 训练 它 。 例 
如 ， 图 15-8 显 示 了 如 何 使 用 一 个 堆 登 的 上 自动 编码 器 对 分 类 神经 网 络 进行 
无 监督 的 预 训 练 。 如 前 所 述 ， 堆 县 的 目 动 编码 器 目 身 通 肖 一 次 训练 一 个 
目 动 编码 器 。 当 训练 分 类 器 时 ， 如 条 你 实在 没有 太 多 的 已 标记 训练 数 
据 ， 则 可 能 需要 冻结 预 训练 层 〈 至 少 是 较 低 层 ) 。 














和 二 种 情况 很 世 遍 因为 构建 一 个 大 的 未 标记 的 数据 集 通 党 比较 
容易 〈 例 如， 一 个 简单 的 脚本 可 以 从 网 络 上 下 载 数 百 万 张 图 片 ) ， 但 是 
可 上 靠 的 标记 它们 只 能 由 人 类 完成 例如， 将 图 片 分 为 可 爱 和 不 可 爱 ) 。 
标记 实例 耗 时 而 且 昂 贵 ， 因 此 只 有 数 千 个 已 标记 实例 的 情况 非常 普 近 。 





阶段 1 阶段 2 
使 用 所 有 的 数据 训练 自动 编码 器 在 已 标记 数据 上 训练 分 类 器 


图 15-8: 使 用 自动 编码 器 进行 无 监督 的 预 训练 
正如 我 们 之 前 讨论 的 ，2006 年 Geoffrey Hinton 等 人 的 发 现 : 深度 神 











经 网 络 可 以 被 无 监督 的 方式 预 处 理 ， 是 触发 目前 深度 学 习 海 啸 的 因素 之 
一 。 他 们 使 用 了 限制 性 的 Boltzmann 机 器 来 研究 它 〈 见 附录 E) ， 但 是 在 
2007 年 ，Yoshua Bengio 等 人 https://goo.g/R5L7HJ) 山 的 研究 显示 自动 
编码 器 也 可 以 工作 得 一 样 好 。 


TensorFlow 的 实现 相当 简单 : 只 需要 用 所 有 的 训练 数据 训练 一 个 自 
动 编码 器 ， 然 后 复 用 它 的 编码 层 创 建 一 个 新 的 神经 网 络 〈 更 多 关于 如 何 
请 参见 第 11 瘟 ， 或 者 查看 Jupyter 笔 记 本 中 的 代码 
示例 ) 。 


至 此 ， 为 了 强制 自动 编码 器 学 习 有 用 的 特征 ， 我 们 限制 了 编码 层 的 
大 小 ， 使 其 不 够 完整 。 实 际 上 我 们 可 以 使 用 一 些 其 他 类 型 的 限制 来 得 到 








一 个 完整 的 编码 磺 ， 包 括 允 许 编码 层 和 输入 的 大 小 一 致 ， 或 者 更 大 。 我 
们 下 面 来 看 一 看 这 其 中 的 一 些 方法 。 


[1] “Greedy Layer-Wise Training of Deep Networks”，Y.Bengio 等 人 
(2007) 。 


去 品目 动 编码 占 


为 一 种 强制 自动 编码 费 学 习 有 用 特征 的 方法 是 在 输入 中 增加 品 首 ， 
训练 它 以 恢复 原始 的 无 噪音 输入 。 这 种 方法 阻止 了 自动 编码 器 简单 地 复 
制 其 输入 到 输出 ， 最 终 必 须 找 到 数据 中 的 模式 。 


自 20 世 纪 80 年 代 以 来 ， 这 种 使 用 自动 编码 器 去 除 噪音 的 方式 就 一 直 
存在 〈 例 如 ，Yann LeCun 贷 士 1987 年 发 表 的 论文 束 已 提 到 该 自动 编码 
器 ) 。2008 年 ，Pascal Vincent 等 人 发 表 的 论文 
(https://goo.gl/K9pqcx) 山 表 明 ， 自 动 编码 器 也 可 以 用 于 特征 提取 。 
2010 年 ，Vincent 等 人 的 论文 (https:/goo.gIMHgCDIA ) 乌 介 绍 了 堆 县 的 
去 噪 上 自动 编码 器 。 


噪音 可 以 是 添加 到 输入 中 的 纯 高 斯 噪音 ， 或 者 是 随机 打 断 输入 的 噪 
音 ， 如 dropout (第 11 章 介绍 的 ) 。 图 15-9 显 示 了 上 面 的 两 种 方法 。 

















图 15-9: 去 噪 自动 编码 匿 ， 高 斯 噪音 《〈 左 ) 或 dropout ( 右 ) 
TensorFlow 实 现 
在 TensorFlow 实 现 去 噪 自动 编码 器 不 是 很 难 。 让 我 们 从 高 斯 噪音 


始 。 除 了 为 输入 增加 噪音 和 根据 原始 输入 计算 重建 损坏 之 外 ， 它 和 训练 
常规 目 动 编码 器 很 相似 : 











X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 
X_noisy = X + tf.random normal(tf.shape(X)) 


hidden1 = activation(tf.matmul(X_noisy, weights1) + biases1) 


reconstruction loss = tf.reduce mean(tf,.square(outputs - X)) # MSE 











本 向 业 愉 赴 交 站 阶段 定义 所 以 不 能 预知 添加 到 X 癌 量 的 
噪音 的 向 量 。 我 们 不 能 调用 X.get_shape () ， 因 为 这 将 只 返回 部 分 定义 
的 X〈[None，n_inputs]) 向 量 ， 而 random_normal () 返回 一 个 完整 定 
义 的 同 量 ， 所 以 它 将 引发 异常 。 相 反 ， 我 们 调用 tf.shape (XX) ， 它 创建 
了 一 个 在 运行 时 返回 该 点 完全 定义 的 X 同 量 的 操作 。 


实现 更 常见 的 dropout 版 本 也 不 是 很 难 : 





from tensorflow.contrib.1layers import dropout 

keep_prob = 0.7 

is_ training = tf.placeholder with default(False, shape=(), name='is_ training') 
X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 

X_ drop = dropout(X, keep_prob, is_ training=is_training) 


hidden1 = activation(tf.matmul(X_drop, weights1) + biases1) 


reconstruction loss = tf,.reduce mean(tf.square(outputs - X)) # MSE 





在 训练 期 间 ， 必 须 使 用 feed_dict 设 置 is_training 的 值 为 True《〈 如 第 11 
章 所 解释 的 ) : 





sess.run(training_op, feed dict={X: X_batch，is_training: True}) 





在 测试 期 间 没 有 必要 设置 is_training 为 False， 因 为 调用 
placeholder_ with_default〈) 函数 时 我 们 设置 其 为 默认 值 。 


[1l “Extracting and Composing Robust Features with Denoising 
Autoencoders”，P.Vincent 等 人 〈2008) 。 

[2] “Stacked Denoising Autoencoders: Learning Useful Representations in a 
Deep Network with a Local Denoising Criterion”，P.Vincent 等 人 
(2010) 。 


黎 踊 目 动 编 但 耸 


另 一 种 导致 民 好 特征 提取 的 约束 是 黎 玻 性 : 通过 在 成 本 函数 中 增加 
适当 的 条 件 ， 推 动 目 动 编码 器 减 小 编码 层 中 活动 神经 元 的 数量 。 例 如 ， 
可 能 使 得 编码 层 只 有 平均 5% 的 显著 激活 神经 元 。 这 迫使 目 动 编码 器 使 
用 少量 激活 神经 元 的 组 合 来 表示 输入 。 结 果 ， 编 码 层 的 每 个 神经 元 都 最 
终 代表 一 个 有 用 特征 (如 果 你 每 个 月 只 能 说 儿 个 单词 ， 那 么 你 可 能 会 尝 
试 让 它们 变 得 有 意义 〉。 


为 了 有 利于 黎 玻 性 模型 ， 必 须 首 先 测 量 每 个 训练 欠 代 编码 层 的 实际 
稀 玻 度 。 我 们 通过 计算 整个 训练 批 次 中 编码 层 每 个 神经 元 的 平均 激活 程 
度 来 实现 。 批 次 的 尺寸 不 能 太 小 ， 否 则 不 能 准确 计算 平均 值 。 


一 旦 得 到 了 每 个 神经 元 的 平均 激活 度 ， 我 们 希望 通过 给 成 本 函数 添 
加 稀 玻 性 损失 以 削弱 过 度 激 活 的 神经 元 。 例 如 ， 如 果 测 量 得 到 一 个 神经 
元 的 平均 激活 度 是 0.3， 但 是 目标 稀疏 度 是 0.1， 则 必须 削弱 其 激活 度 。 
一 种 简单 的 方法 是 通过 给 成 本 函数 增加 平方 误差 (0.3-0.1)“， 但 是 实 
际 上 更 好 的 方法 是 使 用 Kullback-Leibler 散 度 (第 4 章 简 要 讨论 过 ) ， 如 
图 15-10 所 示 ， 它 比 均 方 误差 具有 更 强 的 梯度 。 


给 定 两 个 离散 概率 分 布 P 和 Q， 可 以 使 用 公式 15-1 计 算 该 分 布 之 间 的 
KL 散 度 ， 表 示 为 DKL (PIlIQ) 。 























一 KL 散 度 
BE| wm MOE 





实际 稳 疏 度 





图 15-10: 稀 疏 度 损耗 


公式 15-1: Kullback-Leibler 散 度 


DaCP1O) = PPO ogg 


在 本 例 中 ， 我 们 想 要 计算 神经 元 在 编码 层 被 激活 的 目标 概率 p， 及 
实际 概率 q9《〈 即 ， 训 练 批 次 的 平均 激活 度 ) 之 间 的 差距 。 所 以 ，KL 散 度 
可 以 简化 为 公式 15-2。 


公式 15-2: 目标 稀 朴 度 p 和 实际 稀疏 度 q 之 间 的 KL 散 度 





| 
Du (plq) =p log I 


一 旦 计算 了 编码 层 每 个 神经 元 的 黎 琉 度 损失 ， 我 们 只 需要 素 加 这 些 
损失 ， 然 后 将 其 结果 加 到 成 本 函 数 中 。 为 了 控制 黎 玻 上 度 损伤 和 重建 损失 
的 相对 重要 性 ， 我 们 可 以 通过 一 个 稀 下 度 权重 超 参数 来 增加 黎 琉 度 损 
失 。 如 果 这 个 权重 过 高 ， 模 型 将 非常 接近 目标 稀 玖 度 ， 但 是 可 能 不 能 正 
确 地 重建 输入 ， 使 得 模型 无 用 。 相 反 ， 如 果 它 的 值 过 低 ， 模 型 将 忽略 大 
多 数 稀 玻 性 目标 ， 并 且 学 习 不 到 什么 有 用 特征 。 


上 上 (1 -7p)log 








TensorFlow 实 现 


现在 要 做 的 是 使 用 TensorFlow 实 现 一 个 稀 焉 目 动 编码 器 : 





def kl_ divergence(p，q) : 

return p * tf.log(p /q) + (1- p) * tf.log((1 - p)/ (1 - 9)) 
Jearning_rate = 0.01 
sparsity_target = 0.1 
sparsity weight = 0.2 
[...] # Build a normal autoencoder (in this example the coding layer is hidden1) 
optimizer = tf.train.AdamOptimizer(learning_rate) 


hidden1 mean = tf.reduce mean(hiddeni1, axis=0) # batch mean 

Sparsity loss = tf.reduce sum(kl1 divergence(sparsity target, hiddeni mean)) 
reconstruction loss = tf,.reduce mean(tf.square(outputs - X)) # MSE 

Joss = reconstruction_ loss + sparsity weight * sparsity_loss 

training_op = optimizer.minimize(loss) 








一 个 重要 的 细节 是 ， 编 码 层 激 活 度 的 值 是 在 0 到 1 之 则 (但 是 不 等 于 
0 或 者 1) ， 和 否则 KEL 散 度 将 返回 NaN (Not a Number) 。 一 个 简单 的 解决 
方案 是 为 编码 层 使 用 逻辑 激活 函数 : 





hidden1 = tf.nn.sigmoid(tf.matmul(X, weights1) + biases1) 





一 个 简单 的 技巧 可 以 加 速 收敛 : 我 们 可 以 选择 一 个 具有 较 大 梯度 的 
重建 损耗 ， 而 不 是 使 用 ? MSE。 通 第 情况 下 ， 交 广 业 是 一 个 不 错 的 选 


择 。 为 了 使 用 它 ， 我 们 必须 规范 输入 ， 使 得 其 值 在 0 到 1 之 间 ， 并 对 输出 
层 使 用 逻辑 激活 函数 ， 使 得 输出 值 也 在 0 到 1 之 间 。TensorFlow 的 
sigmoid_cross_entropy_with_logits () 函数 负责 有 效 地 将 逻辑 激活 函数 
应 用 于 输出 层 ， 并 计算 交叉 炳 : 





[...] 
logits = tf.matmul(hidden1, weights2) + biases2) 
outputs = tf.nn.sigmoid(logits) 


reconstruction loss = tf.reduce_ sum( 
tf.nn.sigmoid_ cross_ entropy with logits(labels=X, logits=]logits)) 





注意 ， 在 训练 期 间 不 需要 输出 操作 (只 在 重建 时 使 用 ) 。 


变 分 目 动 编码 缆 


另 一 种 重要 的 自动 编码 器 被 Diederik Kingma 和 Max Welling 山 于 2014 
年 提出 〈https:/goo.gVNZq7r2) ， 并 迅速 成 为 最 受 欢 迎 的 自动 编码 器 之 
0 0 
之 处 在 于 : 


它们 是 概率 目 动 编码 器 ， 这 就 意味 着 即使 经 过 训练 ， 其 输出 也 部 
分 程度 上 决定 于 运气 《不同 于 仅 在 训练 期 间 使 用 随机 性 的 去 噪 自动 编码 
器 ) 。 


更 重要 的 是 ， 它 们 是 生成 目 动 编码 器 ， 意 味 着 它们 可 以 生成 看 起 
来 像 从 训练 样本 采样 的 新 实例 。 


这 些 特性 使 它们 类 似 于 RBMs ( 见 附录 E) ， 但 是 更 加 易于 训练 ， 
采样 过 程 更 快 《使 用 RBMs， 需 要 在 采样 一 个 新 实例 前 ， 等 待 网 络 稳定 
到 一 个 “热平衡 "状态 ) 。 


我 们 来 看 看 它们 是 如 何 工 作 的 。 图 15-11《〈 左 ) 展示 了 一 个 变 分 目 
动 编码 占 。 当 然 ， 你 可 以 识别 出 自动 编码 器 的 基本 结构 : 一 个 编码 器 后 
征 一 个 解码 器 《在 这 个 例子 中 ， 它 们 都 有 两 个 隐藏 层 ) 。 但 是 有 一 点 不 
同 : 它 的 编码 需 会 产生 平均 编码 h 和 标准 侦 关 co， 而 不 是 为 给 定 输入 直接 
产生 一 个 编码 。 然 后 从 平均 值 q 和 标准 偏差 9 的 高 斯 分 布 中 随机 抽取 实际 
编码 。 在 此 之 后 ， 目 动 编码 器 只 需要 正 币 地 解码 采样 编码 。 图 15-11 的 
右 半 部 分 展示 了 一 个 通过 此 编码 吉 的 训练 实例 。 首 移 ， 编 码 器 产生 了 h 
和 ogo， 然后 编码 是 随机 采样 注意 ， 它 不 是 精确 位 于 p 中 ) ， 最 后 这 些 编 
码 被 解码 ， 并 最 终 输 出 训练 实例 。 























图 15-11: 变 分 自动 编码 器 〈 左 ) ， 一 个 变 分 自动 编码 器 的 实例 〈 右 ) 





如 图 15-11 所 示 ， 昌 然 输入 可 能 上 共有 非常 复杂 的 分 布 ， 变 分 自动 编 
码 器 往往 会 产 出 一 个 像 是 从 简单 的 高 斯 分 布 外 中 采样 的 编码 : 在 训练 期 
间 ， 成 本 函数 后 文 将 讨论 ) 推动 编码 在 编码 空间 内 也 称 潜在 空间 ) 
逐步 迁移 到 看 起 来 像 一 个 高 斯 点 云 的 球面 区 域 。 一 个 重要 的 结果 是 ， 变 
分 自动 编码 器 在 训练 之 后 ， 可 以 很 容易 地 生成 一 个 新 实例 : 仅仅 从 高 斯 
分 布 中 抽取 随机 编码 ， 对 其 进行 编码 ， 然 后 调用 即 可 ! 


接 下 来 ， 我 们 来 看 看 成 本 函数 。 它 由 两 部 分 组 成 。 首 先是 常规 的 重 
建 损 耗 ， 推 动 上 自动 编码 器 重 现 其 输入 如 前 所 述 ， 可 以 使 用 交叉 糯 〉。 




















第 二 部 分 是 洪 在 损耗 ， 使 用 编码 的 目标 分 布 “高 斯 分 布 ) 和 实际 分 布 之 
间 的 KL 散 度 ， 使 得 自动 编码 器 的 编码 看 起 来 像 是 从 简单 的 蜗 斯 分 布 中 
进行 采样 。 数 学 计算 比 之 前 更 加 复 洒 ， 尤 其 是 因为 高 斯 噪音 限制 了 传输 
到 编码 层 的 信息 量 〈 从 而 推动 目 动 编码 喜 学 习 更 加 有 意义 的 特征 ) 。 笠 
运 的 是 ， 潜 在 损坏 可 以 简化 为 如 下 代码 : 马 











eps = 1e-10 # smoothing term to avoid computing 1og(0) which is NaN 
Jatent_ Joss = 0.5 * tf.reduce_ sum( 

tf.square(hidden3_ sigma) + tf,square(hidden3_mean) 

- 1 - tf.log(eps + tf.square(hidden3_sigma))) 





一 个 常见 的 变 体 是 训练 编码 器 输出 y=log (co*)〉 ， 而 不 是 6。 当 需要 
oH 时， 可 以 通过 o=exp 《Y/2 1) 计算 。 这 使 得 编码 器 更 容易 捕获 不 同 规模 
的 信号 ， 从 而 帮助 提高 收敛 的 速度 。 潜 在 损失 最 终 将 会 比较 简单 : 








latent_ loss = 0.5 * tf.reduce_ sum( 
tf.exp(hidden3 _ gamma) + tf.square(hidden3 mean) - 1 - hidden3_gamma) 








如 下 代码 构建 了 如 图 15-11〈 左 ) 所 示 的 变 分 自动 编码 器 ， 使 用 了 
log (o*) 变 体 : 





n_inputs = 28 * 28 # for MNIST 


n_hidden1 = 500 
n_hidden2 = 500 
n_hidden3 = 20 # codings 
n_hidden4 = n_hidden2 
n_hidden5 = n_hidden1 
n_outputs = n_inputs 


Jearning_rate = 0.001 


with tf,contrib framework.arg_scope( 
[fully_connected], 
activation_fn=tf.nn.elu, 
weights_initializer=tf.contrib.layers.variance_scaling_ initializer()): 
X = tf.placeholder(tf.float32, [None, n_inputs]) 
hidden1 = fully_connected(X, n_hidden1) 
hidden2 = fully_connected(hidden1，n_hidden2 ) 
hidden3_mean = fully_connected(hidden2, n_hidden3, activation_ fn=None) 
hidden3_gamma = fully_connected(hidden2, n_hidden3, activation fn=None) 
hidden3_sigma = tf.exp(0.5 * hidden3_gamma) 
noise = tf.random normal(tf.shape(hidden3_ sigma), dtype=tf.float32) 
hidden3 = hidden3 mean + hidden3_ sigma * noise 
hidden4 = fully_connected(hidden3, n_hidden4) 
hidden5 = fully_connected(hidden4, n_hidden5) 
logits = fully_connected(hidden5, n_outputs, activation_fn=None) 
outputs = tf.sigmoid(logits) 


reconstruction_ loss = tf.reduce_ sum( 
tf.nn.sigmoid_ cross_ entropy with logits(labels=X, logits=]logits)) 
latent_ loss = 0.5 * tf.reduce_ sum( 
tf.exp(hidden3 gamma) + tf.square(hidden3 mean) - 1 - hidden3_gamma) 
cost = reconstruction loss + latent_loss 


optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate) 
training_op = optimizer.minimize(cost) 


init = tf.global variables_ initializer() 





现在 ， 让 我 们 用 这 个 变 分 自动 编码 右 生 成 一 些 看 起 来 像 手 写 数 字 的 
0 
其 进行 解码 。 





import numpy as np 


n_digits = 60 
n_epochs = 50 
batch_size = 150 


with tf.Session() as sess: 
init.run() 
for epoch in range(n_epochs): 
n_batches = mnist.train.num examples // batch size 
for iteration in range(n_batches): 
X_batch，y_batch = mnist.train.next_batch(batch_size) 
sess.run(training_op, feed dict={X: XxX_batch}) 


codings_rnd 
outputs_val 


np.random.normal(size=[n_digits, n_hidden3]) 
outputs.eval(feed dict={hidden3: codings_rnd}) 





这 就 完成 了 现在 可 以 看 到 由 变 分 自动 编码 占 生 成 的 “手写 ”数字 ， 如 
图 15-12 所 示 : 





for iteration in range(n_digits): 
plt.subplot(n digits, 10, iteration + 1) 
plot_image(outputs_val[iteration]) 
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图 15-12: 变 分 自动 编码 器 生成 的 手写 数字 图 片 


这 些 数字 大 多 数 看 起 来 比较 真实 ， 有 一 小 部 分 看 起 来 相当 富有 “ 创 
造 性 *。 但 是 这 个 编码 器 仅仅 训练 了 一 个 小 时 ， 不 要 对 它 过 于 奇 刻 。 训 
练 时 间 长 一 点 ， 生 成 的 数字 看 起 来 会 更 好 。 


[1] “Auto-Encoding Variational Bayes”，D.Kingma 和 
M.Welling (2014) 。 
[2] 变 分 目 编 码 器 实际 上 更 常见 ;代码 不 限于 高 斯 分 布 。 

[3] 更 多 数学 细节 ， 请 查阅 变 分 目 编码 堪 的 论文 原文 ， 或 者 Carl Doersch 
的 著名 教程 (2016) 。 
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其 他 自动 编码 器 

在 图 像 识 别 、 语 音 识别 、 文 字 翻 译 等 方面 监督 学 习 取 得 了 巨大 的 成 
功 ， 有 点 掩盖 了 无 监督 学 习 ， 但 是 实际 上 无 监督 学 习 正 在 鞍 勃 发 展 的 。 
自动 编码 器 和 其 他 无 监督 度 学 习 算法 的 新 框架 正在 不 断 提出 ， 所 以 本 书 
并 不 能 完全 履 盖 。 下 面 是 一 些 你 可 能 感 兴趣 的 其 他 自动 编码 器 的 简单 说 
明 : 

收缩 自动 编码 器 (CAE) (https://goo0.g/U5t9Ux) 也 


该 目 动 编码 器 在 训练 期 间 加 入 限制 ， 使 得 关于 输入 编码 的 衍生 物 比 
较 小 。 换 句 话 说 ， 相 似 的 输入 会 得 到 相似 的 编码 。 


栈 式 卷 积 自动 编码 器 (https:/goo.gJPTwsol) 驯 
该 上 自动 编码 器 通过 卷 积 层 重 构 图 像 来 学 习 提取 视觉 特 征 。 











随机 生成 网 络 (GSN) (https://goo.gL/HjON1m) 局 

去 噪 自动 编码 器 的 推广 ， 增 加 了 生成 数据 的 能 

获胜 者 (WTA) 自动 编码 器 〈https:/goo.gUI1LvzL ) 内 

训练 期 间 ， 在 计算 了 编码 层 所 有 神经 元 的 激活 度 之 后 ， 只 保留 训练 


批 次 中 前 k% 的 激活 度 ， 其 余 都 置 为 0。 自 然 地 ， 这 将 导致 稀疏 编码 。 此 
外 ， 类 似 的 WTA 方法 可 以 用 于 产生 稀 芷 卷 积 目 动 编码 器 。 














对 抗 自动 编码 器 〈https:/goo.gl/enC5fB ) 名 


一 个 网 络 被 训练 来 重 现 输入 ， 同 时 另 一 个 网 络 被 训练 来 找到 不 能 
确 重建 第 一 个 网 络 的 输入 。 这 促使 第 一 个 自动 编码 器 学 习 和 鲁 棒 编 码 。 


[1| Contractive Auto-Encoders: Explicit Invariance During Feature 
Extraction”，S.Rifai 等 人 (2011) 。 

[2] “Stacked Convolutional Auto-Encoders for Haierarchical Feature 
Extraction”，J.Masci 等 人 (2011) 。 

[3] “GSNs: Generative Stochastic Networks”，G.Alain 等 人 〈2015) 。 


[4] “Winner-Take-All Autoencoders”，A.Makhzani 和 B.Frey (2015) 。 
[5] “Adversarial Autoencoders”，A.Makhzani 等 人 〈2016) 。 


练习 
1. 自 动 编码 器 的 主要 任务 是 什么 ? 


2. 假 如 想 训练 一 个 分 类 器 ， 而 且 有 大 量 未 训练 的 数据 ， 但 是 只 有 有 几 
干 个 已 经 标记 的 实例 。 自 动 编码 费 可 以 如 何 帮 助 你 吗 ? 你 会 如 何 实现 ? 


3. 如 果 上 自动 编码 器 可 以 完美 地 重 现 输入 ， 它 就 是 一 个 好 的 上 自动 编码 
需 吗 ? 如 何 评 估 目 动 编码 器 的 性 能 ? 


4. 什 么 是 不 完整 和 完整 目 动 编码 右 ? 不 完整 自动 编码 露 的 主要 风险 
是 什么 ? 完整 的 又 是 什么 ? 


5. 如 何在 栈 式 目 动 编码 器 上 绑 定 权重 ? 为 什么 要 这 样 做 ? 
6. 栈 式 目 动 编码 器 低层 学 习 可 视 化 特征 的 常用 技术 是 什么 ? 高层 叉 


是 什么 ? 
7. 什 么 是 生成 模型 ? 你 能 列举 一 种 生成 自动 编码 器 吗 ? 
8. 使 用 去 躁 目 动 编码 器 了 预 训 练 图 像 分 类 器 : 


:可 以 使 用 最 简单 的 MNIST， 当 然 如 果 需 要 更 大 的 挑战 也 可 以 使 用 
更 大 的 图 像 集 ， 例 如 CIFAR10。 如 果 选 择 
CIFAR10 (https://goo.gV/VbsmxG) ， 需 要 自己 写 代 码 来 加 载 图 像 进 行 训 
练 。 如 果 想 忽略 这 一 部 分 ，TensorFlow 模 型 动物 园 包 含 了 实现 这 些 的 工 
具 (https://goo.g/3iENgb) 。 


-将 数据 集 分 为 训练 集 和 测试 集 。 在 完整 训练 集 上 训练 一 个 深度 去 
躁 目 动 编码 器 。 


检查 图 像 是 否 重建 完好 ， 并 可 视 化 低层 特征 。 可 视 化 编码 层 每 个 
神经 元 中 激活 度 最 高 的 图 像 。 


构建 一 个 分 类 深度 神经 网 络 ， 复 用 目 动 编码 器 的 低层 。 仅 使 用 训 
练 集 的 10% 的 数据 训练 它 。 你 可 以 使 得 它 和 使 用 整个 训练 集训 练 的 分 类 
强 拥 有 同样 的 性 能 吗 ? 





9.2008 年 Ruslan Salakhutdinov 和 Geoffrey 
Hinton (https://goo.g/LXzFX6) 由 提 出 的 语义 散 列 (Semantic hashing) 
是 一 项 用 于 高 效 信息 检索 的 技术 : 文档 例如， 图像 通过 系统 ， 通 常 
是 一 个 输出 低 维 二 进 制 同 量 的 神经 网 络 ( 例 如 ，30 位 ，。 两 个 相似 的 文 
档 具 有 相同 或 者 相似 的 散 列 。 即 使 存在 数 十 亿 个 文档 ， 也 通过 使 用 散 列 
索引 每 个 文档 : 只 需 计 算 该 文档 的 散 列 ， 然 后 查找 具 有 相同 散 列 值 〈 或 
者 只 有 一 两 位 不 同 ) 的 所 有 文档 。 让 我 们 使 用 一 个 微调 过 的 栈 式 自动 编 
码 器 实现 语义 散 列 : 


训练 一 个 编码 层 下 面包 含 两 个 隐藏 层 的 栈 式 目 动 编码 右 ， 并 用 之 
前 训练 中 用 到 的 图 像 集训 练 它 。 编 码 层 应 包含 30 个 神经 元 ， 并 使 用 逻辑 
激活 函数 使 得 输出 值 在 0 到 1 之 间 。 训 练 后 ， 为 了 产生 图 像 的 散 列 ， 可 以 
简单 地 通过 目 动 编码 器 运行 它 ， 获 取 编 码 层 的 输出 ， 将 每 个 值 售 入 到 最 
接近 的 整数 (0 或 1) 。 


.Salakhutdinov 和 Hinton 提 出 了 一 个 简单 的 技巧 : 仅 在 训练 期 间 ， 将 
高 斯 噪音 ( 零 均值 加 到 编码 层 。 为 了 保持 较 大 的 信 噪 比 ， 自 动 编码 右 
将 学 习 将 比较 大 的 值 馈送 给 编码 层 〈 从 而 忽略 噪音 ) 。 相 反 ， 这 意味 着 
编码 层 逻 辑 函 数 的 输出 值 将 可 能 在 0 或 者 1 处 饱和 。 所 以 ， 将 编码 值 舍 入 
为 0 或 1 不 会 使 它们 失真 太 多 ， 并 将 提高 散 列 的 可 靠 性 。 


:计算 每 张 图 片 的 散 列 ， 并 查看 相同 散 列 的 图 像 是 否 相 似 。 由 于 
MNIST 和 CIFAR10 是 被 标记 过 的 ， 所 以 更 客观 地 测量 语义 散 列 自动 编码 
器 性 能 的 方法 是 确保 具有 相同 散 列 值 的 图 像 通常 具体 相同 的 类 。 一 个 方 
Ch 《或 相似 ) 散 列 值 的 图 像 的 平均 基尼 纯度 〈 在 第 6 章 

J 绍 过 ) 四 


尝试 使 用 交叉 验证 来 微调 超 参 数 。 


:请 注意 ， 男 一 种 进行 分 类 的 方法 是 : 用 已 标记 的 数据 集训 练 卷 积 
神经 网 络 ， 然 后 使 用 输出 层 下 面 的 层 产生 散 列 值 。 详 细 参 见 Jinma Gua 
和 Jinma Gua 2015 年 所 发 表 的 论文 (https:/goo.gUi9FTln) 。 看 看 效果 是 
否 更 好 。 


10. 用 之 前 练习 中 使 用 的 图 像 集 (MNIST 或 者 CIFAR10) 训练 一 个 
变 分 自动 编码 器 ， 并 使 它 生 产 图 像 。 或 者 ， 你 可 以 尝试 找到 你 感 兴趣 的 
未 标记 结果 集 ， 看 看 能 不 能 生成 新 样本 。 























练习 的 解决 方案 详 见 附录 A。 


[1] “Semantic Hashing”，R.Salakhutdinov 和 G.Hinton (2008) 。 
[2]“CNN Based Hashing for Image Retrieval”，J.Gua 和 J.Li (2015) 。 


第 16 章 ”强化 学 习 


强化 学 习 (RL) 是 当今 机 右 学 习 领 域 最 激动 人 心 的 领域 之 一 ， 也 
是 最 古老 的 领域 之 一 。 自 20 世 纪 50 年 代 来 ， 它 产生 了 许多 有 趣 的 应 
用 山 ， 尤 其 是 在 游戏 领域 ， 例 如 ，TD-Gammon 〈 一 个 西洋 双 陆 棋 游 戏 
程序 ) 和 机 器 控制 领域 ， 但 是 很 少 成 为 头条 新 闻 。2013 年 发 生 了 一 场 音 
命 ， 当 时 英国 一 个 名 为 DeepMind 的 创业 公司 的 研究 人 员 展 示 了 一 个 系 
统 ， 访 系统 可 以 从 头 开 始 玩 Atari 公 司 的 任何 游戏 
(https:/goo.gl/hceDs5) 外。 它 仅 使 用 原始 像素 作为 输入 ， 在 之 前 对 游 
戏 规 则 (https:/goo.glhgpvz7) 四 没有 任何 了 解 的 情况 下 就 可 以 胜 过 大 
多 数 的 人 类 。 冉 这 是 一 系列 惊人 壮举 的 开始 ，2016 年 3 月 AlphaGo 击 败 了 
世界 围棋 冠军 Lee Sedol( 李 世 石 ) 。 没 有 一 个 程序 曾经 击败 过 专业 棋 
手 ， 更 别 说 是 世界 冠军 了 。 现 在， 整个 RL 领域 都 为 各 种 广泛 的 应 用 和 
新 想法 而 沸腾 。DeepMind 在 2014 年 被 谷歌 以 5 亿 多 美元 收购 。 


那么 他 们 是 怎么 做 到 这 些 的 呢 ? 事后 看 来 ， 似 乎 很 简单 : 他 们 将 机 
器 学 习 应 用 于 强化 学 习 领 域 ， 而 且 其 效果 超 乎 想象 。 本 章 首 先 会 解释 强 
化 学 习 及 其 优点 ， 然 后 会 介绍 深度 强化 学 习 领 域 的 两 个 重要 技术 : 策略 
梯度 和 深层 Q 网 络 (DQN) ， 包 括 关 于 马尔 可 夫 决 策 过 程 (MDP) 的 讨 
论 。 我 们 将 使 用 这 些 技术 来 训练 一 个 模型 来 平衡 移动 的 车 上 的 杆 ， 另 一 
个 模型 用 来 玩 Atari 游 戏 。 相 同 的 技术 可 以 用 于 各 种 不 同 领域 的 任务 ， 从 
步行 机 器 人 到 自动 驾驶 汽车 。 


[1] 了 解 更 多 细节 ， 可 以 查看 Richard Sutton 和 Andrew Barto 的 关于 RL 的 

书 《Reinforcement Learning: An Introduction (MIT Press) 》 
(https://goo.g]/7utZaz) ， 或 者 David Silver 在 伦敦 大 学 的 在 线 免 费 RL 课 

程 (https://go0.g/AWcMFW) 。 

[2] “Playing Atari with Deep Reinforcement Learning”，V.Mnih 等 人 
(2013) 。 

[3] “Human-level control through deep reinforcement learning”，V.Mnih 等 

人 (2015) 。 

[4] 查看 DeepMind 系 统 学 习 玩 Space Invaders、Breakout 等 游戏 的 视频 ， 

请 查看 https://goo.gl/yTsH6X。 























学 习 交 励 最 优化 


在 强化 学 习 中 ， 软 件 代理 在 一 定 的 环境 中 观察 并 采取 行动 ， 作 为 回 
报 获得 一 定 奖励 。 其 目的 是 学 会 采取 行动 以 最 大 化 其 预期 的 长 期 回报 。 
如 果 使 用 拟人 的 手法 ， 你 可 以 将 正面 回报 视 为 恰 饮 ， 将 负面 回报 视 为 痛 
苗 ( 在 这 种 情况 下 , “回报 ”一 词 可 能 有 反 误 导 ) 。 短 期 上 ， 代 理 在 环境 
中 运行 ， 通 过 试验 和 错误 学 习 最 大 化 愉悦 并 最 小 化 痛 知 。 


本 这 是 一 个 普 衣 应 用 于 各 种 任务 中 的 广泛 设置 。 下 面 有 一 些 例子 ( 见 
16-1) : 

















图 16-1: 强化 学 习 举 例 : (a) 步行 机 器 人 ， (b) 吃 豆 人 游戏 ，“〈c) 
围棋 选手 ， 〈d) 恒温 器 ， (〈e) 自动 交 易 员 山 


a. 代 理 可 以 是 控制 步行 机 器 人 的 程序 。 在 这 种 情况 下 ， 环 境 是 现实 


世界 ， 代 理 通 过 一 组 传感器 《〈 如 摄像 机 和 触摸 传 感 顺 ) 来 观察 环境 ， 其 
行为 包括 发 送信 号 以 激活 发 动机 。 它 可 能 被 设计 为 当 接近 目的 地 时 获得 
正面 回报 ， 当 浪费 时 间 、 走 错 地 方 ， 或 者 跌倒 时 获得 负面 回报 。 


b. 代 理 可 以 是 控制 吃 豆 人 游戏 的 程序 。 在 这 种 情况 下 ， 环 境 是 Atari 
游戏 的 一 个 模拟 ， 行 为 是 操纵 杆 的 9 个 可 能 的 位 置 (左上 、 左 下、 中 
间 ， 等 等 ) ， 观 察 结果 是 截图 ， 而 回报 仅 是 游戏 获得 的 点 数 。 


c. 相 似 地 ， 代 理 也 可 以 是 玩 诸如 围棋 等 棋盘 类 游戏 的 程序 。 


d. 代 理 不 必 控 制 一 个 真实 《或 虚拟 ) 东西 的 移动 。 例 如 ， 它 可 是 一 
个 镶 能 的 恒温 右 ， 当 接近 目标 温度 并 节省 能 量 时 获得 正面 回报 ， 当 需要 
人 类 调节 温度 时 获得 负面 回报 ， 所 以 代理 必须 学 会 预测 人 类 需求 。 


e. 代 理 可 以 观察 股票 价格 ， 并 决定 每 秒 买 入 或 者 卖 出 多 少 。 显 然 ， 
回报 就 是 金钱 的 收益 和 损失 。 


注意 ， 可 能 根本 就 没有 正面 回报 ; 例如 ， 代 理 在 迷宫 中 移动 ， 在 每 
一 步 中 获得 负面 回报 ， 以 更 快 地 找到 出 口 ! 还 有 很 多 适合 使 用 强化 学 习 
的 例子 ， 例 如 上 自动 驾驶 汽车 ， 在 网 页 上 放置 广告 ， 或 者 控制 图 像 分 类 系 
统 该 注意 的 地 方 。 


[1 图片 (a) 、(c) 、(d) 转自 维基 百科 。 (a) 和 〈d) 来 自 公共 图 
片 。 (c) 是 Stevertigo 创 造 的 ， 发 布 于 Commons BY-SA 
2.0 (https://creativecommons.org/licenses/bysa/2.0/)) 。 (b) 是 吃 豆 人 游 
戏 的 截图 ， 版 权 属于 Atari 公 司 〈 作 者 认为 它 在 本 章 是 合理 使 用 的 ) 。 

(e) 转载 和 目 Pixabay， 发 布 于 Creative Commons 
CCO (https://creativecommons.org/publicdomain/zero/1.0/) 。 


























束 略 搜索 


决定 软件 代理 行为 的 算法 称 为 集 略 。 例 如 ， 策 略 可 以 古 一 个 观测 输 
入 并 输出 其 所 采取 的 行动 的 神经 网 络 〈 见 图 16-2) 。 


代理 环境 











图 16-2: 使 用 神经 网 络 策略 的 强化 学 习 


全 上 略 可 以 是 你 能 想到 的 任何 算法 ， 它 甚至 不 必 是 确定 的 。 例 如 ， 考 
虑 一 个 机 器 人 吸 生 器 ， 其 获得 的 回报 是 30 分 钟 内 吸取 的 灰 竺 量 。 其 集 略 
可 能 是 每 秒 以 概率 p 同 前 移动 ， 或 者 以 概率 1-p 随 机 癌 左 或 回 右 转 。 旋 转 
角度 将 是 一 个 了 到 +r 间 的 随机 角度 。 由 于 该 策略 涉及 一 些 随机 性 ， 所 以 
称 之 为 随机 集 略 。 机 器 人 将 有 一 个 不 稳定 的 轨迹 ， 这 样 保证 它 最 后 将 到 
0 ee i 
人 少 交 全? 





如 何 训练 这 样 的 机 需 人 了 呢 ? 只 有 两 个 参数 供 你 调整 : 概率 p 和 角度 
范围 r。 一 种 可 能 的 学 习 算 法 是 党 试 这 两 个 参数 的 各 种 不 同 的 值 ， 然 后 
选择 最 佳 组 合 〈 见 图 16-3) 。 这 是 一 个 使 用 了 暴力 方法 的 策略 搜索 例 
子 。 但 是 ， 当 搜索 空间 太 大 (这 是 通常 情况 ) 时 ， 通 过 这 种 途径 找到 最 
佳 组 合 就 如 同 大 海 捞 针 。 


另 一 种 探索 策略 空间 的 方法 使 用 了 遗传 算法 。 例 如 ， 可 以 随机 地 创 
造 第 一 代 的 100 个 策略 ， 然 后 穷尽 它 ， 然 后 “ 杀 掉 ”80 个 最 差 的 策略 ， 山 





并 使 剩余 的 20 个 “幸存 者 ”每 个 生成 4 个 后 代 。 后 代 只 是 其 父母 饭 加 上 一 
些 随 机 变化 。 季 存 的 策略 及 其 后 代 组 成 了 第 二 代 。 然 后 继续 使 用 上 述 方 
法 欠 代 ， 直 到 发 现 一 个 好 的 策略 。 


策略 空间 年 林 们 人 











图 16-3: 策略 空间 中 的 四 点 和 代理 的 相应 行为 


还 有 一 种 方法 是 通过 对 策略 参数 的 回报 梯度 的 评估 使 用 优化 技术 ， 
然后 根据 获得 较 高 回报 的 梯度 〈 梯 度 上 升 ) 调整 这 些 参数 。 这 种 方法 称 
为 策略 梯度 (PG) ， 在 本 章 的 后 文中 有 详细 讨论 。 回 到 之 前 机 堪 人 吸 
侍 器 的 例子 ， 可 以 稍微 增 大 p 的 值 ， 然 后 评估 机 器 人 在 30 分 钟 内 吸 到 的 
灰尘 量 有 没有 增加 ;如果 增 加 了 ， 就 再 增 大 p 的 值 ， 否 则 就 减 小 。 我 们 
将 使 用 TensorFlow 实 现 一 个 流行 的 PG 算法 ， 在 这 之 前 需要 创造 代理 的 生 
存 环 境 ， 所 以 是 时 候 介绍 一 下 OpenAl gym 了 。 


[通常 会 给 那些 性 能 差 的 集 略 一 些 机 会 ， 以 保持 “基因 库 ” 的 多 样 性 。 
[2] 这 里 如 果 是 单亲 ， 通 常 称 作 无 性 繁殖 。 有 两 个 (或 多 个 ) 父母 ， 通 
常 称 为 有 性 繁殖 。 后 代 的 基因 组 (在 本 书 中 是 指 一 组 集 略 ) 由 其 父母 的 
基因 随机 组 成 。 




















OpenAI gym 介 绍 


强化 学 习 的 挑战 之 一 是 为 了 训练 代理 ， 首 先 需要 有 一 个 工作 环境 。 
如 果 想 通过 编程 让 一 个 代理 学 习 如 何 玩 Atari 洲 戏 ， 将 需要 该 游戏 的 一 个 
模拟 右 。 如 果 想 实现 一 个 走路 机 器 人 ， 那 么 环境 就 是 现实 世界 ， 可 以 直 
接 在 该 环境 中 训练 机 器 人 ， 但 是 有 一 些 限 制 : 如 果 机 堪 人 掉 下 巧 岩 ， 不 
能 仅仅 是 按 “ 回 退 ? 键 ， 更 不 能 加 速 ， 增 加 更 多 的 计算 能 力 并 不 能 使 机 器 
人 跑 得 更 快 。 通 常 来 说 ， 并 行 训练 1000 个 机 器 人 成 本 过 高 。 简 而 言 之 ， 
人 As 
训练 。 





OpenAI gym (https:/gym.openai.com/) 山 是 一 个 提供 各 种 模拟 环境 
CAtari 游 戏 ， 棋 盘 游 戏 ，2D 和 3D 的 环境 模拟 等 ) 的 工具 包 ， 因 此 可 以 
使 用 它 训练 代理 ， 比 较 这 些 代 理 ， 或 者 开发 新 的 RL 算法 。 


首先 ， 简 单 地 使 用 pip 命 令 安装 OpenAl gym: 





$ pip3 install --upgrade gym 





然后 打开 一 个 Python 脚 本 或 者 Jupyter 笔 记 本 ， 来 创建 第 一 个 环境 : 





>>> import gym 

>>> env = gym.make("CartPole-voO") 

[2016-10-14 16:03:23,199] Making new env: MsPpPacman-vO 
>>> obs = env.reset() 

>>> obs 

array([-0.03799846, -0.03288115, 0.02337094, 0.00720711]) 
>>> env.render() 





make () 函数 用 来 创建 环境 ， 本 例 中 是 一 个 CartPole 环 境 。 这 是 一 
个 2D 模 拟 器 ， 它 可 以 通过 同 左 或 者 同 右 加 速 小 推 车 ， 来 平衡 放置 于 其 
顶端 的 一 个 杆 《〈 见 图 16-4) 。 环 境 创建 之 后 ， 需 要 使 用 reset〈() 方法 来 
初始 化 。 这 将 返回 第 一 个 观察 报告 。 观 察 报告 依赖 于 环境 类 型 。 对 于 
CartPole 环 境 ， 每 个 观察 报告 是 一 个 包含 四 个 浮 点 数 的 一 维 NumPy 数 
组 。 这 些 浮 点 数 代 表 了 小 推 车 的 水 平 位 置 (0.0 是 中 心 ) 、 速 度 、 杆 的 
角度 (0.0 是 垂直 和 角度) 和 和 角速度。 最 后 ，render() 方法 展示 了 如 图 16- 
4 所 示 的 环境 。 














图 16-4: CartPole 环 境 


如 果 想 要 render () 以 NumPy 数 组 的 形式 返回 泻 染 的 图 像 ， 可 以 设 
置 mode 参 数 为 rgb_array (注意 ， 不 同 环境 可 能 文 持 不 同 的 模式 ) : 





>>> img = env.render(mode="rgb_array") 
>>> img.shape # height, width, channels (3=RGB ) 
(400, 600, 3) 








Qing， 即使 设置 mode 的 值 为 rgb_array，CartPole 《和 其 他 一 
些 环境 ) 也 会 将 图 像 演 染 到 屏幕 上 。 唯 一 避免 这 种 情况 的 方法 是 使 用 一 
个 假 X 服 务 器 ， 如 Xvfb 或 者 Xdummy。 例 如 ， 安 装 Xvfb， 并 使 用 如 下 命 
令 启 动 Python: xvfb-run-s"-screen 01400x900x24"python， 或 者 使 用 


xvfbwrapper 包 (https://goo.g/wR10]1) 。 
让 我 们 问 问 环境 什么 行动 是 可 能 的 : 





>>> env.action_space 
Discrete(2) 





Discrete (2) 表示 可 能 的 行动 是 整数 0 和 1， 分 别 代 表 着 同 左 (0) 
和 同 右 (1〉 加速 。 其 他 环境 可 能 有 更 多 的 离散 行为 ， 或 者 其 他 类 型 的 
Me 连续 的 ) 。 由 于 杆 在 同 右 倾斜 ， 所 以 我 们 让 小 推 车 加 速 同 
行驶 : 





ee | 


>>> action = 1 # accelerate right 

>>> obs, reward, done, info = env.step(action) 

>>> obs 

array([-0.03865608, 0.16189797, 0.02351508, -0.27801135]) 
>>> reward 





step() 方法 执行 给 定 的 行动 ， 并 返回 四 个 值 : 
obs 


这 是 一 个 新 的 观测 结果 。 小 推 车 现在 正 疝 右 行驶 (obs[1]>0，。 杆 
仍然 问 右 倾斜 (obs[2]>0，， 但 是 它 的 角速度 是 负数 (obs[3]<0， ， 所 
以 下 一 步 之 后 它 可 能 同 左 倾斜 。 





reward 


在 该 环境 ， 无 论 你 做 什么 ， 每 一 步 你 都 会 获得 1.0 的 回报 ， 所 以 目 
标 是 尽 可 能 运行 更 长 的 时 间 。 








done 


实验 结束 之 后 ， 该 值 将 被 设置 为 True。 当 杆 倾斜 过 多 时 ， 这 种 情况 
就 会 发 生 。 在 此 之 后 ， 环 境 必 须 重 置 之 后 才能 使 用 。 





info 


该 字段 可 能 会 在 其 他 环境 提供 额外 的 调试 信息 。 这 些 数据 不 应 该 用 
于 训练 “ 它 将 是 欺诈 )。 


我 们 来 便 编 码 一 个 简单 的 策略 ， 当 杆 癌 左倾 斜 时 加 速 回 左 ， 当 杆 向 
右倾 斜 时 加 速 癌 右 。 执 行 该 策略 ， 以 获得 超过 500 个 片段 的 平均 回报 : 





def basic_ policy(obs): 
angle = obs[2] 
return 0 if angle < 0 else 1 


totals = [] 
for episode in range(500): 


episode_rewards = 0 
obs = env.reset() 
for step in range(1000): # 1000 steps max, we don't want to run forever 
action = basic_ policy(obs) 
obs, reward, done, info = env.step(action) 
episode_ rewards += reward 
if done: 
break 
totals.append(episode rewards) 








这 段 代码 很 容易 理解 ， 直 接 看 看 结 





>>> import numpy as np 
>>> np.mean(totals), np.std(totals), np.min(totals), np.max(totals) 
(42.125999999999998，9 .1237121830974033，24.0，68.0) 





即使 经 过 500 次 党 试 ， 该 策略 也 无 法 保证 杆 在 超过 68 个 连续 步骤 里 
保持 直立 。 结 果 不 理想 。 如 果 观 察 Jupyter 笔 记 本 中 的 模拟 器 
(https://github.com/ageron/handson-ml) ， 可 以 看 到 车 子 越 来 越 严 重地 
0 直到 杆 倾 斜 太 多 。 下 面 看 看 神经 网 络 是 否 能 提出 一 个 更 好 的 
策略 。 


[1 OpenAI 是 一 个 非 僵 利 性 质 的 人 工 智能 研究 公司 ， 由 Elon Musk 部 分 资 
助 。 其 目标 是 促进 和 发 展 有 利于 人 类 的 AI《〈 而 不 是 消灭 它 ) 。 





神经 网 络 策 略 


首先 创建 一 个 神经 网 络 策略 。 与 之 前 硬 编 码 的 策略 一 样 ， 神 经 网 络 
将 观察 作为 输入 ， 并 输出 要 执行 的 行为 。 更 准确 地 说 ， 它 将 估计 每 个 行 
为 的 可 能 性 ， 然 后 根据 估计 的 可 能 性 随机 选取 一 种 行为 〈 见 图 16-5) 。 
在 CartPole 坏 境 中 ， 有 两 个 可 能 的 行为 ( 左 或 者 右 ) ， 所 以 只 需要 一 个 
输出 神经 元 。 它 将 输出 行为 0 ( 左 ) 的 概率 p， 当 然 行为 1 ( 右 ) 的 概率 
是 1-p。 例 如 ， 如 果 输 出 0.7， 那 么 我 们 将 以 70% 的 可 能 性 采用 行为 0， 以 
30% 的 可 能 性 采用 行为 1。 











图 16-5: 神经 网 络 策略 
你 可 能 疑惑 ， 为 什么 神经 网 络 根据 输出 的 概率 来 随机 选择 一 个 行 








为 ， 而 不 是 直接 选取 得 分 最 高 的 行为 。 这 种 方法 使 得 代理 找到 探索 新 行 





动 和 已 经 能 够 正 疝 运行 的 行为 之 间 的 平衡 。 比 如 ， 假 设 你 第 一 次 去 一 家 
餐厅 ， 所 有 的 沫 看 起 来 同样 地 吸引 人 ， 上 所 以 你 随机 选择 一 个 。 如 果 事 实 
证 明 比 较 好 吃 ， 下 次 你 束 会 增加 选择 它 的 概率 ， 但 是 概率 不 能 增加 到 

100%， 天 则 你 就 永远 不 能 笃 试 其 他 末了 ， 其 他 夹 可 能 会 比 你 当初 选择 
的 那个 更 好 。 


还 需要 注意 的 是 ， 在 特定 的 环境 中 ， 过 去 的 行为 和 观察 可 以 被 安全 
地 忽略 ， 因 为 每 个 观察 都 包含 了 环境 的 全 部 状态 。 如 果 有 一 些 隐 藏 状 
态 ， 那 么 就 需要 考虑 过 去 的 行为 和 观察 。 例 如 ， 如 果 环 境 只 显示 车 的 位 
置 ， 而 不 是 其 速度 ， 那 么 为 了 估计 当前 速度 ， 你 不 仅 需 要 考虑 当前 观察 
还 需要 考虑 前 一 个 观察 。 男 一 个 例子 是 当 观 察 存在 噪 首 时 ， 你 通常 需要 
使 用 过 去 的 多 个 观察 结果 来 估计 当前 可 能 的 状态 。CartPole 问 题 束 是 最 
简单 的 情况 ， 观 穴 结 果 无 噪音 且 包含 环境 的 全 部 状态 。 


下 面 是 使 用 TensorFlow 构 建 神经 网 络 策略 的 代码 : 

















import tensorflow as tf 
from tensorflow.contrib.1layers import fully_connected 


# 1. Specify the neural network architecture 

n_inputs = 4 # == env.observation_space.shape[0] 

n_hidden = 4 # it's a Simple task, we don't need more hidden neurons 
n_outputs = 1 # only outputs the probability of accelerating left 
initializer = tf.contrib.layers.variance_scaling initializer() 


# 2. Build the neural network 

X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 

hidden = fully_connected(X, n_hidden, activation_fn=tf.nn.elu, 
weights_initializer=initializer) 

logits = fully_connected(hidden, n_outputs, activation fn=None, 
weights_initializer=initializer) 

outputs = tf.nn.sigmoid(logits) 

# 3. Select a random action based on the estimated probabilities 

p_left_and_right = tf.concat(axis=1, values=[outputs, 1 - outputs]) 

action = tf.multinomial(tf,.log(p_left_and_right), num_samples=1) 


init = tf.global variables_ initializer() 





我 们 来 看 看 这 段 代码 : 


1. 导 入 之 后 ， 定 义 了 神经 网 络 的 架构 。 输 入 的 数量 是 观察 空间 的 大 
小 《在 CartPole 例 子 中 ， 输 入 数量 为 4) ， 我 们 只 有 4 个 隐藏 单位 ， 并 输 
出 一 个 概率 《〈 回 左 的 概率 ) 。 








2. 接 下 来 ， 构 建 神经 网 络 。 在 该 例子 中 ， 它 是 一 个 只 有 一 个 输出 的 
香草 多 层 感 知 器 。 注 意 ， 为 了 输出 一 个 从 0.0 到 1.0 的 概率 ， 输 出 层 使 用 
逻辑 (S 形 ) 激活 函数 。 如 果 有 两 个 以 上 可 能 的 行为 ， 那 么 每 个 行为 将 
是 一 个 输出 神经 元 ， 而 且 将 使 用 softmax 激 活 函 数 。 


3. 最 后 ， 调 用 multinomial () 函数 选择 一 个 随机 行为 。 给 定 每 个 整 
数 的 对 数 概率 ， 该 函数 独立 地 对 一 个 或 多 个 整数 进行 采样 。 例 如 ， 使 用 
数组 [Inp.log (0.5) ，np.log (0.2) ，np.log (0.3) ] 和 num_samples=5 调 
用 它 ， 那 么 它 将 输出 5 个 整数 ， 每 个 整数 值 为 0 的 概率 是 50%， 为 1 的 概 
率 是 20%， 为 2 的 概率 是 30%。 在 该 例子 中 ， 仪 需要 输出 一 个 整数 表示 采 
取 的 行为 。 因 为 outputs 张 量 仪 包含 同 左 的 概率 ， 所 以 必须 首先 将 1- 
outputs 连 接 到 输出 中 ， 以 便 输 出 一 个 同时 包含 同 左 和 同 右 概率 的 张 量 。 
例如 ， 如 果 有 两 个 以 上 可 能 的 行为 ， 神 经 网 络 必须 每 个 行为 输出 一 个 概 
率 ， 这 样 就 不 需要 上 面 的 连接 步骤 。 


现在 我 们 有 了 一 个 将 进行 观察 并 输出 行为 的 神经 网 络 策略 。 但 是 怎 
么 训练 它 呢 ? 








评估 行为 : 信用 分 配 问题 


如 果 知 道 每 一 步 的 最 佳 行为 是 什么 ， 我 们 束 可 以 和 以 前 一 样 通过 最 
小 化 估计 的 概率 和 目标 概率 之 间 的 交 义 业 来 训练 神经 网 络 。 这 是 常规 的 
监督 学 习 。 然 而 ， 在 强化 学 习 中 代理 获得 指导 的 唯一 方法 是 通过 回报 ， 
而 回报 通常 是 黎 臣 和 延迟 的 。 例 如 ， 如 果 代 理 使 得 杆 保持 平衡 了 100 
步 ， 那 么 怎么 知道 这 100 步 中 哪 一 个 行为 是 比较 好 的 ， 哪 一 个 比较 差 
呢 ? 我们 知道 的 只 是 杆 在 最 后 一 个 位 置 后 掉 沙 了， 但 是 全 部 责任 肯定 不 
是 最 后 一 步 。 这 称 为 信用 分 配 问题 : 当代 理 获 得 回报 时 ， 很 难 知道 哪些 
行为 对 该 结果 有 正面 或 者 负面 影响 。 可 以 想象 一 只 小 狗 表 现 好 的 几 个 小 
时 后 获得 了 奖励 ， 它 会 明白 它 为 什么 获得 奖励 吗 ? 


为 了 解决 这 个 间 题 ， 一 个 常用 的 案 略 是 根据 获得 回报 的 总 和 来 评估 
一 个 行为 ， 通 常 在 每 步 之 后 乘 以 折扣 率 r。 例 如 ( 见 图 16-6)〉 ， 如 果 代 理 
决定 在 一 行 中 连续 向 右 三 次 ， 并 在 第 一 步 之 后 获得 回报 +10， 第 二 步 之 
后 获得 0， 最 后 一 步 之 后 回报 变 为 -50， 那 么 假设 折扣 率 r=0.8， 第 一 个 位 
置 的 总 得 分 是 10+rx0+rx (-20) =-22。 如 果 折 扣 率 趋 近 于 0， 与 即时 回 
报 相 比 ， 未 来 的 回报 不 会 太 多 。 相 反 ， 如 果 折 扣 率 趋 近 于 1， 那 么 未 来 
的 回报 将 远 远 高 于 即时 回报 。 典 型 折扣 率 为 0.95 或 0.99。 当 折扣 率 为 
0.95 时 ，13 步 的 未 来 回报 大 概 是 即时 回报 的 一 半 《 因 为 0.95 sx0.5) ， 当 
折扣 率 为 0.99 时 ，69 步 的 未 来 回报 将 是 即时 回报 的 一 半 。 在 CartPole 环 
境 中 ， 行 动 具 有 短期 时 效 性 ， 所 以 选择 折扣 率 等 于 0.95 比 较 合理 。 


当然 ， 一 个 好 的 行为 可 能 在 很 多 不 好 的 行为 之 后 ， 使 得 杆 快速 倒 
掉 ， 结 果 导 致 好 的 行为 得 到 低 分 〈 类 似 地 ， 好 演员 有 时 也 会 在 差 电影 中 
饰演 角色 ) 。 然 而 ， 如 宁 试 验 次 数 足 够 多 ， 好 行为 的 平均 得 分 会 高 于 坏 
行为 。 所 以 ， 为 了 得 到 比较 可 靠 的 行为 得 分 ， 我 们 必须 运行 很 多 裔 ， 并 
将 所 有 行为 得 分 进行 归 一 化 处 理 〈 通 过 减 去 平均 值 并 除 以 标准 俩 差 ) 。 
在 此 之 后 ， 束 可 以 合理 地 预测 ， 得 分 高 的 行为 是 好 行为 ， 得 分 低 的 是 不 
好 的 行为 。 我 们 已 经 有 了 评估 每 一 个 行为 的 方法 ， 现 在 准备 使 用 集 略 梯 
度 来 训练 第 一 个 代理 。 下 面 看 看 结果 怎样 。 
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图 16-6: 折扣 回报 


束 略 梯度 


正如 前 面 讨论 的 ，PG 算 法 通过 在 梯度 后 面 跟随 更 高 的 回报 来 优化 
策略 参数 。1992 年 Ronald Williams 提 出 了 一 种 流行 的 PG 算法 ， 山 称 为 强 
化 算法 (REINFORCE algorithm) 。 这 是 一 个 常见 变种 : 


1. 首 先 ， 让 神经 网 络 琐 略 多 次 玩 游 戏 ， 然 后 计算 每 一 步 更 有 可 能 被 
选择 的 行为 的 梯度 ， 但 是 并 不 实施 这 些 梯度 。 


2. 运 行 几 壳 之后， 计算 每 个 行为 的 得 分 《使 用 上 面 描述 的 方法 ) 。 


3. 如 果 一 个 行为 的 得 分 是 正 数 ， 意 味 着 该 行为 是 好 的 ， 你 希望 使 用 
之 前 计算 的 这 些 梯度 ， 使 得 该 行为 在 未 来 更 有 可 能 被 选择 。 然 而 ， 如 宁 
得 分 是 负数 ， 意 味 着 该 行为 不 好 ， 你 希望 应 用 相反 的 梯度 ， 使 得 该 行为 
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4. 最 后 ， 计 算得 到 的 所 有 横 度 问 量 的 平均 值 ， 并 使 用 它 来 执行 梯度 
下 降 步 又 。 


下 面 使 用 TensorFlow 实 现 访 算法。 我们 将 训练 之 前 构建 的 神经 网 络 
策略 ， 让 其 学 习 让 杆 在 小 车 上 保持 平衡 。 我 们 从 完成 之 前 添加 目标 概 
率 、 成 本 函数 和 训练 操作 的 代码 开始 。 因 为 我 们 的 工作 类 似 于 选择 最 好 
的 行为 ， 所 以 如 果 选 择 了 行为 0 ( 左 ) ， 目 标 概 率 就 是 1.0， 如 果 选 择 了 
行为 1( 右 ) 目标 概率 就 是 0.0: 


























y = 1. - tf.to_ float(action) 








现在 有 了 目标 概 京 ， 可 以 定义 成 本 函数 交叉 糯 ) 并 计算 梯度 : 





Jearning_rate = 0.01 


cross_entropy = tf.nn.sigmoid cross entropy_with logits( 
Jabels=y, logits=]logits) 

optimizer = tf.train.AdamOptimizer(learning_rate 

grads_and_vars = optimizer.compute_ gradients(cross_entropy) 





注意 ， 调 用 优化 器 的 compute_gradients () 方法 ， 而 不 是 
minimize〈) 方法 。 因 为 我 们 希望 在 应 用 之 前 调整 梯 
度 。 包 compute_gradients () 返回 梯度 向 量 /变量 对 列表 〈 每 个 可 训练 变 
量 一 对 ) 。 将 所 有 梯度 放 在 一 个 列表 中 ， 以 便 获 取 其 值 : 











gradients = [grad for grad, variable in grads_and_vars] 





现在 是 环 手 的 部 分 。 在 执行 阶段 ， 算 法 将 运行 策略 ， 在 每 一 步 将 计 
算 这 些 梯度 癌 量 并 存储 其 值 。 执 行 多 次 之 后 ， 如 前 所 述 ， 它 将 调整 这 些 
梯度 〈 即 ， 乘 以 行为 得 分 并 归 一 化 ) 并 计算 调整 过 的 梯度 的 平均 值 。 接 
下 来 ， 它 需要 将 生成 的 梯度 反馈 给 优化 器 ， 以 便 执行 优化 。 这 意味 着 每 
个 梯度 问 量 需 要 一 个 占 位 符 。 此 外 ， 必 须 创 建 执行 更 新 梯度 的 操作 。 为 
此 ， 将 调用 优化 器 的 apply_gradients () 函数 ， 该 函数 采用 梯度 向 量 / 变 
量 列 表 。 我 们 传 给 函数 更 新 过 的 梯度 列表 ， 而 不 是 原始 梯度 同 量 〈 即 ， 
通过 梯度 占 位 符 僻 送 的 梯度 ): 











gradient_placeholders = [] 

grads_and_vars feed = [] 

for grad, variable in grads_and_vars: 
gradient_placeholder = tf.placeholder(tf.float32, shape=grad.get_shape()) 
gradient_placeholders.append(gradient_ placeholder) 
grads_and_vars_feed.append( (gradient_ placeholder, variable)) 


training_op = optimizer.apply_gradients(grads_ and_vars_feed) 





回顾 一 下 整个 构建 阶段 : 





n_inputs 
n_hidden 
n_outputs = 1 

initializer = tf.contrib,.layers.variance_scaling_ initializer() 


= 4 
= 4 


Jearning_rate = 0.01 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 

hidden = fully_connected(X, n_hidden, activation_fn=tf.nn.elu, 
weights_initializer=initializer) 

logits = fully_connected(hidden, n_outputs, activation fn=None, 
weights_initializer=initializer) 

outputs = tf.nn.sigmoid(logits) 

p_left_and_right = tf.concat(axis=1, values=[outputs, 1 - outputs]) 

action = tf.multinomial(tf,.log(p_left_and_right), num_samples=1) 


y = 1. - tf.to_ float(action) 
cross_entropy = tf.nn.sigmoid cross _ entropy _ with logits( 
Jabels=y, logits=]logits) 


optimizer = tf.train.AdamOptimizer(learning_rate) 

grads_and_ vars = optimizer.compute_gradients(cross_entropy) 

gradients = [grad for grad, variable in grads_and vars] 

gradient_placeholders = [] 

grads_and_vars feed = [] 

for grad, variable in grads_and_vars : 
gradient_placeholder = tf.placeholder(tf.float32, shape=grad.get_shape()) 
gradient_placeholders.append(gradient_placeholder) 
grads_and_vars_feed.append( (gradient_ placeholder, variable)) 

training_op = optimizer.apply_gradients(grads_ and_ vars_ feed) 


init = tf.global variables initializer() 
saver = tf.train.Saver() 





下 面 是 执行 阶段 ! 我 们 需要 一 系列 函数 来 计算 总 折扣 回报 ， 给 出 原 
台 回 报 ， 并 根据 多 次 实验 对 结果 进行 归 一 化 : 








def discount_ rewards(rewards, discount_rate): 
discounted_rewards = np.empty(len(rewards)) 
cumulative_rewards = 0 
for step in reversed(range(len(rewards))): 
cumulative_rewards = rewards[step] + cumulative rewards * discount_rate 
discounted_rewards[step] = cumulative rewards 
return discounted _ rewards 


def discount_and_ normalize_ rewards(all rewards, discount_rate): 
all discounted rewards = [discount_rewards(rewards ) 
for rewards in all rewards] 
flat_rewards = np.concatenate(all discounted_rewards) 
reward_ mean = flat_rewards.mean() 
reward_std = flat_rewards.std() 
return [(discounted rewards - reward mean)/reward_std 
for discounted _ rewards in all discounted rewards] 








我 们 来 检查 一 下 代理 是 否 可 以 正常 运行 : 





>>> discount_rewards([10, ©0, -50], discount_rate=0.8) 

array([-22., -40., -50.]) 

>>> discount_and_ normalize_rewards([[10, 960, -50], [10, 20]], discount_rate=0.8) 
[array([-0.28435071, -0.86597718, -1.18910299] )， 

array([ 1.26665318, 1.0727777 ])] 





调用 discount_rewards () 返回 了 期 望 结 果 ( 见 图 16-6) 。 可 以 验证 
discount_and_normalize_rewards 〈) 函数 确实 返回 了 两 次 实验 中 每 个 行 
为 的 归 一 化 分 数 。 注 意 ， 第 一 次 实验 的 结果 严重 差 于 第 二 次 ， 所 以 它 的 
归 一 化 分 数 均 为 负数 ; 第 一 次 实验 的 所 有 行为 都 被 认为 是 不 好 的 ， 相 反 
第 二 次 的 所 有 行为 都 被 认为 是 好 的 。 





现在 ， 我们 有 了 所 有 需要 训练 的 策略 : 





n_iterations = 250 # number of training iterations 

n_max_steps = 1000 # max Steps per episode 

n_games_per_update = 10 # train the policy every 10 episodes 
save_iterations = 10 # Save the model every 10 training iterations 


discount_rate = 0.95 


with tf.Session() as sess: 
init.run() 
for iteration in range(n_iterations): 
all_rewards = [] # all sequences of raw rewards for each episode 
all_gradients = [] # gradients saved at each step of each episode 
for game in range(n games_ per_update): 
current_rewards = [] # all raw rewards from the current episode 
current_gradients = [] # all gradients from the current episode 
obs = env.reset() 
for step in range(n_max_steps): 
action val, gradients val = sess.run( 
[action, gradients], 
feed dict={X: obs.reshape(1, n_inputs)}) # one obs 
obs, reward, done, info = env.step(action val[0][0]) 
current_rewards.append(reward) 
current_gradients.append(gradients_val) 
if done: 
break 
all_rewards.append(current_rewards) 
all_gradients.append(current_gradients) 


# At this point we have run the policy for 10 episodes, and we are 
# ready for a policy update using the algorithm described earlier. 
all_rewards = discount_and_normalize rewards(all rewards) 
feed dict = {} 
for var_index, grad_ placeholder in enumerate(gradient placeholders): 
# multiply the gradients by the action scores, and compute the mean 
mean_gradients = np.mean( 
[reward * all gradients[game_ index][step][var_index] 
for game_index, rewards in enumerate(all rewards) 
for step, reward in enumerate(rewards)], 
axis=0) 
feed dict[g rad_placeholder] = mean_ gradients 
sess.run(training_op, feed dict=feed_ dict) 
If iteration % save_ iterations == 0: 
saver.save(sess, "./my_policy_net_pg.ckpt") 





每 个 训练 欠 代 开始 于 运行 策略 10 次 〈 为 了 避免 无 休止 地 运行 ， 每 次 
最 多 运行 1000 步 ) 。 每 一 步 中 ， 还 计算 梯度 ， 并 假设 每 一 步 选 择 的 行为 
是 最 好 的 。 运 行 10 次 之 后 ， 使 用 discount_ and_normalize_ rewards () 耶 
数 计算 行为 得 分 ; 通 历 每 个 可 训练 变量 、 每 次 训练 和 所 有 步骤 ， 用 每 个 
梯度 同 量 乘 以 其 相应 的 行为 得 分 ， 计 算 结 果 梯 度 的 平均 值 。 最 终 ， 运 行 
训练 操作 ， 传 给 它 我 们 计算 的 每 个 可 训练 变量 的 平均 梯度 。 同 样 ， 每 10 
次 训练 操作 保存 一 次 模型 。 


大 功 告 成 了 ! 代码 将 训练 神经 网 络 朱 略 ， 它 会 成 功 学 习 杆 在 小 车 上 
保持 平衡 (可 以 在 Jupyter 笔 记 本 中 尝试 一 下 〉 。 注 意 ， 实 际 上 有 两 种 方 
式 会 输 挥 游戏 : 村 倾斜 过 多 ， 或 者 车 完全 驶 出 屏 磋 。 经 过 250 次 训练 碗 
代 ， 它 将 成 功 学 习 平衡 小 车 上 的 杆 ， 但 是 在 避免 小 车 驶 出 屏幕 的 问题 上 
做 得 还 是 不 尽 如 人 意 。 再 经 过 几 百 次 的 训练 途 代 将 解决 这 个 问题 。 











全 研究 人 员 尝 试 找到 算法 ， 使 得 代理 即使 对 环境 一 无 所 知 也 会 下 
常 运行 。 然 而 ， 除 非 在 写 论文 ， 否 则 应 该 尽 可 能 多 地 灌输 给 代理 主要 信 
恩 ， 因 为 这 将 加 速 训练 。 例 如 ， 可 以 添加 与 屏幕 中 心 到 杆 的 角度 的 距离 
成 正比 的 负面 反馈 。 此 外 ， 如 果 已 经 有 了 一 个 相当 不 错 的 策略 〈 例 如 ， 
0 
呐 拟 它 。 


尽管 相对 简单 ， 但 是 该 算法 十 分 强大 。 可 以 使 用 该 算法 解决 比 平 衡 
小 车 上 的 杆 更 复杂 的 问题 。 实 际 上 ，AlphaGo 就 基于 类 似 的 PG 算法 (加 
上 蒙特 卡 罗 树 搜索 ， 这 超出 了 本 书 的 范围 ) 。 


下 面 来 看 看 另外 一 个 流行 的 算法 系列 。PG 算 法 直接 尝试 优化 策略 
以 增加 回报 ， 我 们 现在 要 看 的 算法 不 太 直 接 : 代理 学 习 评 估 每 个 状态 的 
未 来 回报 预期 总 和 ， 或 者 每 个 状态 的 每 个 行为 的 未 来 回报 预期 总 和 ， 然 
后 利用 该 信息 决定 采取 的 行为 。 为 了 理解 这 些 算法 ， 先 来 介绍 一 下 马尔 
可 夫 决 策 过 程 (MDP) 。 




















[1| “Simple Statistical Gradient-Following Algorithms for Connectionist 
Reinforcement Learning”, R.Williams (1992) 。 

[2] 当 我 们 讨论 梯度 裁剪 时 ， 在 第 11 章 中 ， 我 们 已 经 做 了 一 些 类 似 的 事 
情 : 我 们 首先 计算 梯度 ， 然 后 惟 志 它们 ， 最 后 应 用 裁 野 过 的 梯度 。 





马尔 可 夫 决 策 过 程 


20 世 纪 早期 ， 数 学 家 安 德 烈 - 马 尔 可 夫 (Andrey Markov) 人 研究 了 无 
记忆 的 随机 过 程 ， 称 为 马尔 可 夫 链 。 这 种 过 程 具 有 固定 的 状态 数 ， 并 且 
在 每 一 步 中 随机 地 从 一 个 过 程 转 换 为 另 一 个 过 程 。 从 状态 s 转 换 为 状态 
s' 的 概率 是 固定 的 ， 且 只 依赖 于 状态 对 (s，s') ， 与 过 去 的 状态 无 关 
(系统 没有 记忆 )。 

图 16-7 展 示 了 一 个 具有 四 个 状态 的 马尔 可 夫 链 的 例子 。 假 设 过 程 从 
状态 so 开始 ， 而 且 下 一 步 有 70% 的 可 能 性 保持 在 当前 状态 。 最 终 它 肯定 
会 离开 这 个 状态 ， 并 且 永 远 不 会 回 到 So。 如 采 它 到 达 状 态 si;， 它 将 极 有 
可 能 进入 状态 $Sy〈90% 的 概率 ) ， 然 后 立刻 回 到 状态 sS;〈1009% 的 概 
率 ) 。 它 可 能 会 在 这 两 个 状态 之 间 来 回 交 蔡 ， 但 是 最 终 会 沙 入 状态 ss， 
并 永远 保持 在 这 里 (这 是 最 终 状 态 ) 。 马 尔 可 夫 链 可 以 有 非常 不 同 的 动 
力学 ， 并 广泛 用 于 热力 学 、 化 学 、 统 计 学 等 。 


























图 16-7: 马尔 可 夫 链 举例 


20 世 纪 50 年 代 ， 马 尔 科 夫 决策 过 程 首先 被 理 查 德 :贝尔 曼 提 出 
(https:/goo.gJwZTVIN) 。 山 它 类 似 于 马尔 可 夫 链 ， 但 有 一 些 不 同 ; 在 
每 一 步 中 ， 代 理 可 以 在 几 种 可 能 的 行为 中 选择 一 个 ， 转 换 概率 依赖 于 所 


选择 的 行为 。 此 外 ， 一 些 状 态 转 换 返 回 一 些 回报 〈 正 数 或 者 负数 ) ， 代 
理 的 目标 是 找到 一 个 随 着 时 间 推 移 ， 获 得 最 大 回报 的 集 略 。 


例如 ， 图 16-8 所 示 的 MDP 有 三 种 状态 且 在 每 一 步 有 三 种 可 能 的 离散 
行为 。 如 果 从 状态 so 开始， 代理 可 以 在 行为 80、al、as 中 间 选 择 一 个 。 
如 果 选 择 行为 ai， 它 就 肯定 保持 在 状态 s， 并 且 不 获得 任何 回报 。 因 
此 ， 如 果 愿 意 ， 它 可 以 永远 保持 在 该 状态 。 但 是 如 果 选择 行为 8g9， 它 有 
70% 的 概率 获得 +10 的 回报 ， 并 保持 在 状态 so。 然 后 可 以 一 次 又 一 次 地 党 
试 ， 并 获得 尽 可 能 多 的 回报 。 但 是 在 某 时 ， 它 会 结束 s\ 状 态 进入 s) 状 
态 。 在 sj 状态 下 ， 它 有 两 种 可 能 的 行为 ，a0 或 者 al 。 它 可 以 通过 重复 地 
选择 行为 ai 而 保持 在 该 状态 ， 或 者 移动 到 状态 s 并 获得 -50 的 回报 。 在 状 
态 9%， 它 别 无 选择 地 选择 行为 al， 该 行为 有 很 大 可 能 导致 该 过 程 回 到 s 
状态 ， 并 获得 +40 的 回报 。 观 察 图 片 中 的 MDP， 你 能 猜 到 随 着 时 间 的 推 
移 哪 种 策略 可 以 获得 最 大 回报 吗 ? 在 状态 so， 很 明显 行为 a0 是 最 好 的 先 
择 ， 在 状态 s 别 无 选择 地 选择 行为 ， 但 是 在 状态 s;， 到 底 是 选择 保持 
(ai) 还 是 通过 火焰 (a) ， 结 果 不 明 显 。 
































图 16-8: 马尔 可 夫 决 策 过 程 举 例 
贝尔 曼 发 现 了 一 种 方法 来 评估 任何 状态 s 的 最 优 状 态 值 ， 标 记 为 





V*(s) ， 到 达 状 态 s 之 后 ， 假 设 行 为 是 最 优 的 ，V* 〈s) 是 代理 平均 扩 
扣 后 所 有 未 来 回报 的 总 和 。 如 果 代理 行为 最 优 ， 贝 尔 曼 最 优 方程 式 就 适 
用 ( 见 公式 16-1) 。 这 个 递归 方程 式 表明 ， 如 果 代 理 的 行为 最 优 ， 那 么 
当前 状态 的 最 优 值 等 于 采取 一 个 最 优 行为 后 获得 的 平均 回报 ， 加 上 该 行 
为 可 以 导致 的 所 有 可 能 的 下 一 个 状态 的 期 望 最 优 值 。 


公式 16-1: 贝尔 曼 最 优 方程 式 
| 由 下 max, 》 了 (0 ) LR(s,a,s") + 水 六 (站 | foralls 
工 CS，a，S') 是 假设 代理 选择 行为 a， 从 状态 $ 到 状态 s' 的 转换 概 


Rs，a，S) 是 假设 代理 选择 行为 8， 从 状态 s 到 状态 s' 获 得 的 回 
及 。 

Y 是 折扣 率 。 

该 方程 式 可 以 直接 推导 出 一 个 算法 ， 可 以 准确 估计 每 个 可 能 状态 的 
最 优 状态 值 ， 痛 先 将 所 有 估计 的 状态 值 初始 化 为 零 ， 然 后 使 用 值 迭 代 算 
法 迭代 地 更 新 它们 《〈 见 公式 16-2) 。 一 个 显著 的 结果 是 ， 假 设 时 间 充 
分 ， 根 据 最 优 策略， 这 些 估计 保证 能 够 收敛 到 最 优 状 态 。 


公式 16-2: 值 达 代 算 法 
Vo 四 ma s,0,8 ) LR(s,a,s) + y.V(s)) foralls 























“Vk (Ss) 是 算法 第 k 次 迭代 时 状态 s 的 估计 值 。 


众 坟 第 法 是 一 个 动态 项 划 的 例子 ， 它 将 一 个 复杂 问题 〈 在 本 例 中 
是 估计 可 能 无 限 次 的 折扣 后 未 来 回报 的 总 和 ) 拆 分 成 可 以 迭代 人 处理 的 易 
I 
六 状态 值 〉。 


了 解 最 优 状 态 值 很 有 用 ， 特 别 是 在 评 佑 策略 时 ， 但 是 它 不 会 明确 告 
诉 代理 需要 做 什么 。 幸 运 的 是 ， 贝 尔 曼 发 现 了 一 个 非常 类 似 的 算法 来 评 
估 最 优 状态 -行为 值 ， 通 常 称 为 Q 值 。 状 态 -行为 对 (s，a) 的 最 优 Q 值 ， 
标记 为 Q*(s，a) ， 是 代理 到 达 状 态 s 并 选择 了 行为 a 后， 假设 在 此 行为 
后 其 行为 最 优 ， 预 期 的 平均 折扣 后 未 来 回报 的 总 和 。 


下 面 是 它 的 工作 原理 :首先 将 所 有 的 Q 值 估计 初始 化 为 零 ， 然 后 使 
用 Q 值 迭代 算法 更 新 它们 〈 见 公式 16-3)。 


公式 16-3: Q 值 迭代 算法 
Qi 5,0) 全 ) T(s,a,s )|R(s,a,s) +Yy. maxQ,(s',a')) forall (s,a) 
一 旦 有 了 最 优 Q 值 ， 定 义 最 优 策略 (标记 为 nt* ， 2 Ed 
当代 理 在 状态 s 时 ， 应 该 选择 具有 最 高 Q 值 的 行为 :”“、。“%。 


让 我 们 将 该 算法 应 用 到 图 16-8 所 示 的 MDP 中 。 首 先 ， 需 要 定义 
MDP: 











nan=np.nan # represents impossible actions 

T= np.array([ # shape=[s, a, s'] 
[[90.7, 0.3, 0.0], [1.0, 0.0, 0.0], [0.8, 0.2, 0.0]], 
[[0.0, 1.0, 0.0], [nan, nan, nan], [0.0, 0.0, 1.0]], 
[[nan, nan, nan], [0.8, 0.1, 0.1], [nan, nan, nan]], 


] ) 
R = np.array([ # shape=[s, a, s'] 
[[10., 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]], 
[[10., 0.0, 0.0], [nan, nan, nan], [0.0, 0.0, -50.]], 
[[nan, nan, nan], [40., 0.0, 0.0], [nan, nan, nan]], 


possible actions = [[0, 1, 2], [9, 2], [1]] 





现在 ， 运 行 Q 值 迭代 算法 : 





Q = np.full((3, 3), -np.inf) # -inf for impossible actions 
for state, actions in enumerate(possible actions): 
Q[state, actions] = 0.0 # Initial value = 0.0, for all possible actions 


lJearning_rate = 0.01 
discount_rate = 0.95 
n_iterations = 100 


for iteration in range(n_iterations): 


Q_prev = Q.copy() 
for s in range(3): 
for a in possible actions[s]: 
Q[s, a] = np.sum([ 
T[s, a, sp] * (R[s, a, sp] + discount_rate * np.max(Q_prev[sp])) 
for sp in range(3) 


]) 





所 得 到 的 Q 值 如 下 所 示 : 





>>> Q 
array([[ 21.89498982，20.80024033，16.86353093] ， 
[ 1.11669335, -inf， 1.17573546], 
-inf, 53.86946068, -inf]]) 
>>> np.argmax(Q, axis=1) # optimal action for each state 
array([90, 2, 1]) 





这 给 出 了 折扣 率 为 0.95 时 ， 该 MDP 的 最 优 策 略 : 状态 so 时 选择 行为 
ao0， 状 态 si 时 选择 行为 aa〈 通 过 火焰 ! ) ， 状 态 sz? 时 选择 行为 ai1《〈 唯 一 可 
能 的 行为 ) 。 有 趣 的 是 ， 当 折扣 率 降 低 为 0.9 时 ， 最 优 策略 改变 为 : 状 
态 s1 时 最 佳 行 为 变 为 a0 (保持 状态 ， 不 通过 火焰 ) 。 这 是 有 道理 的 ， 相 
0 那么 未 来 回报 的 前 景 就 不 值得 立即 付 








[11 “A Markovian Decision Process”，R.Bellman (1957) 。 


加 周二 亲子 悦 与 Q 末 妆 


具有 离散 行为 的 强化 学 习 问 题 通 常 可 以 建 模 为 马尔 可 夫 决 倘 过程 ， 
但 是 最 初时 代理 不 知道 转换 概率 是 什么 〔 它 不 知道 T (s,，a,，s') ) ， 也 
不 知道 回报 将 是 什么 不 知道 R(s，a，s') ) 。 代 理 必须 至 少 经 历 一 次 
每 一 个 状态 和 每 一 个 转换 才能 知道 回报 ， 如 果 需 要 对 转换 概率 进行 合理 
的 估计 ， 它 必须 多 次 体验 上 述 过 程 。 


时 间 差 分 学 习 (‘Temporal Difference Learning，TD 学 习 ) 算法 与 价 
值 迭 代 算 法 非常 相似 ， 但 是 考虑 到 代理 可 能 仪 具有 部 分 MDP 知 识 ， 进 行 
了 调整 。 通 常 ， 我 们 假设 初始 时 代理 只 知道 可 能 的 状态 和 行为 。 它 使 用 
一 个 探索 策略 (例如 ， 纯 随机 测试 ) 来 探索 MDP， 然 后 随 着 它 的 进展 ， 
TD 学 习 算 法 根据 实际 观察 到 的 转换 和 回报 更 新 估计 的 状态 值 〈 见 公式 
16-4) 。 














公式 16-4，TD 学 习 算 法 


ls) oll obs) Foalr ty. Vly)) 


.0 是 学 习 率 〈 例 如 : 0.01) 





全 1D 学 习 算 法 与 梢 度 下 降 算法 有 许多 相似 之 处 ， 特别 是 一 次 只 处 
理 一 个 样本 。 与 SGD 相 似 ， 如 果 逐 渐 减 小 学 习 率 ， 它 才 会 真正 收敛 ， 人 否 
则 融会 保持 在 最 佳 状态 附近 。 


对 每 个 状态 s， 该 算法 简单 地 持续 跟踪 代理 离开 该 状态 时 获得 的 即 
时 回报 的 平均 值 ， 加 上 期 望 以 后 得 到 的 回报 假设 行为 最 佳 )。 


类 似 地 ，Q 学 习 算 法 是 对 Q 值 算法 在 初始 状态 时 转换 概率 和 回报 未 
知情 况 下 的 调整 〈 见 公式 16-5) 。 


公式 16-5: Q 学 习 算 法 


Qa ls,0) © (1 +atr+y ma 


对 于 每 一 个 状态 -行为 对 〈s，a) ， 该 算法 持续 跟踪 代理 通过 行为 a 
离开 状态 s 时 的 平均 回报 ， 加 上 以 后 的 期 望 回 报 。 由 于 目标 集 略 会 采取 
最 佳 行为 ， 所 以 对 于 下 一 个 状态 采用 最 大 的 Q 值 预 估 值 。 


下 面 介绍 如 何 实现 Q 学 习 算 法 : 











import numpy.random as rnd 


Jearning_rate0 = 0.05 
learning_rate decay = 0.1 
n_iterations = 20000 


Ss=0# start in state 0 


Q = np.full((3, 3), -np.inf) # -inf for impossible actions 
for state, actions in enumerate(possible actions): 
Q[state, actions] = 0.0 # Initial value = 0.0, for all possible actions 


for iteration in range(n_iterations): 
a = rnd.choice(possible actions[s]) # choose an action (randomly) 
sp = rnd.choice(range(3), p=T[s, al]) # pick next state using T[s, al] 
reward = R[s, a, sp] 
learning_rate = learning_ rate0 / (1 + iteration * learning_rate_decay) 
Q[s, a] = learning_rate * Q[s, a] + (1 - learning_rate) * (人 
reward + discount_rate * np.max(Q[sp]) 


Ss= sp# move to next state 





给 定 足 够 的 迭代 数 ， 该 算法 会 收敛 到 最 优 Q 值 。 因 为 被 训练 的 算法 
不 是 执行 的 那个 ， 所 以 该 算法 称 为 离线 集 略 (off-policy〉 算 法 。 令 人 慰 
讶 的 是 ， 该 算法 能 根据 代理 的 随机 行为 学 习 最 佳 策略 (想象 一 下 你 跟 一 
个 猴子 老师 学 习 打 高 尔 夫 球 ) 。 我 们 能 做 得 更 好 吗 ? 


探索 策略 


当然 ， 只 有 在 探索 策略 充分 发 掘 MDP 时 ，Q 学 习 算 法 才能 奏效 。 尽 
管 随机 策略 能 够 保证 最 终 多 次 访问 每 个 状态 和 每 种 变换 ， 但 是 做 到 这 些 
可 能 会 花费 特别 长 的 时 间 。 因 此 ， 一 个 更 好 的 选择 是 使 用 s-greedy 货 
略 : 在 每 一 步 它 以 概率 s 选 择 随 机 行动 或 以 概率 1-8 选 择 贫 柳 行动 〈 选 择 
共有 最 高 Q 值 的 行为 ) 。 与 完全 随机 策略 相 比 ，s-greedy 策 略 的 优点 是 它 
将 花费 越 来 越 多 的 时 间 探索 环境 中 有 趣 的 部 分 ， 因 为 Q 值 估计 变 得 越 来 











越 好 ， 同 时 还 花费 一 些 时 间 访 问 MDP 未 知 区 域 。 和 常见 的 方式 是 e 从 大 的 
值 开始 例如 ，1.0) ， 然 后 逐渐 减 小 比如， 减 小 到 0.05〉。 与 其 依赖 
于 机 会 做 探索 ， 还 不 如 至 励 探 索 策 略 尝试 它 以 前 没有 尝试 过 的 行为 。 它 
可 以 作为 额外 值 加 到 Q 值 的 估计 上 来 实现 ， 如 公式 16-6 所 示 。 


公式 16-6: 使 用 探索 函数 的 Q 学 习 
Q(s,0) (1 -a)0(s,0) +a(r+y. max A(Q(s ,a ), Ns ,a'))) 


:Ns'"，a') 计算 在 状态 s 时 选择 行为 a 的 次 数 。 


f (q，n) 是 探索 函数 ， 如 f(q，n) =q+K/ (1+n) ，K 是 好 奇 度 超 
参数 ， 用 于 测量 代理 被 吸引 到 未 知 的 次 数 。 


过 近 Q 学 习 


Q 学 习 的 主要 问题 是 不 能 很 好 地 扩展 到 具有 大 量 状态 和 行为 的 大 型 
(甚至 中 型 ) MDP 中 。 考 虑 使 用 Q 学 习 来 玩 吃 豆 人 游戏 (Ms.Pac- 
Man) 。 有 250 颗 豆子 供 吃 豆 人 吃 ， 每 个 豆子 有 存在 或 不 存在 〈 即 已 经 
被 吃 了 ) 两 种 状态 。 所 以 可 能 的 状态 数 大 于 2“0s107? 〈 考 虑 只 有 豆子 存 
在 的 可 能 状态 ) 。 这 比 可 观察 到 的 宇宙 中 的 原子 还 要 多 ， 所 以 绝对 没有 
办 法 跟踪 每 个 Q 值 的 状态 。 


解决 方案 是 使 用 可 管理 的 参数 数量 来 找到 一 个 逼近 Q 值 的 函数 。 这 
就 是 所 谓 的 逼近 Q 学 习 。 多 年 来 ， 推 荐 使 用 从 状态 提取 的 手工 特征 的 线 
性 组 合 〈 例 如 ， 最 接近 幽灵 的 距离 ， 及 其 方向 等 ) 来 估计 Q 值 ， 但 是 
DeepMind 显 示 使 用 深度 学 习 网 络 会 工作 得 更 好 ， 尤 其 是 对 复杂 问题 ， 
并 且 不 需要 任何 的 工程 特征 。 用 来 估计 Q 值 的 DNN 称 为 深度 Q 网 络 
(DQN) ， 使 用 DQN 进 行 逼 近 Q 学 习 称 为 深度 Q 学 习 。 


本 章 剩 余 的 部 分 将 使 用 深度 Q 学 习 来 训练 一 个 玩 吃 豆 人 游戏 的 代 
理 ， 瓯 像 DeepMind 在 2013 年 做 的 那样 。 通 过 简单 的 调整 该 代码 可 以 学 
习 玩 大 部 分 的 Atari 游 戏 ， 而 且 玩 得 相当 好 。 在 大 多 数 行为 游戏 中 ， 它 都 
可 以 达到 超人 的 技能 ， 但 是 它 不 擅长 具有 长 时 间 故 事情 节 的 游戏 。 























使 用 深度 Q 学 习 玩 号 豆 人 游戏 


因为 使 用 Atari 游 戏 环境 ， 所 以 首先 安装 OpenAI gym 的 Atari 依 赖 。 
当 处 于 这 种 环境 时 ， 也 需要 安装 其 他 可 能 想 玩 的 OpenAI ”gym 的 依赖 。 
在 Mac OS 上 ,假如 已 经 安装 了 Homebrew (http://brew.sh/) ， 仅 需要 运 
行 : 





$ brew install cmake boost boost-python sdl2 swig wget 





在 Ubuntu 上 ， 输 入 如 下 命令 〈 如 果 使 用 Python 2， 使 用 python 来 代 
蔡 python3) : 





$ apt-get install -y python3-numpy python3-dev cmake zlibig-dev libjpeg-dev\ 
xvfb libav-tools xorg-dev python3-opengl libboost-all-dev libsdl2-dev swig 





然后 安装 Python 的 其 他 模块 : 





$ pip3 install --upgrade 'gym[al1] 





如 果 一 切 顺 利 ， 应 该 就 可 以 创建 吃 豆 人 游戏 环境 了 : 





>>> env = gym.make("MSsPacman-V9" ) 

>>> obs = env.reset() 

>>> obs.shape # [height, width, channels] 
(210, 160, 3) 

>>> env.action_space 

Discrete(9) 





正如 你 所 看 到 的 ， 这 里 有 九 个 可 用 的 离散 操作 ， 对 应 操纵 杆 中 9 个 
可 能 的 位 置 ( 左 、 右 、 上 、 下 、 中 间 、 左 上 ， 等 等 ) ， 观 察 值 是 Atari 屏 
幕 的 截图 〈 如 图 16-9 左 图 所 示 ) ， 代 表 3D NumPy 数 组 。 这 些 图 片 有 点 
大 ， 所 以 我 们 将 创建 一 个 小 的 预 处 理 函 数 ， 来 裁剪 图 片 并 将 其 压缩 到 
88x80 像 素 ， 将 其 转换 为 灰 度 ， 并 提高 吃 豆 人 游戏 的 对 比 度 。 这 将 减 小 
DQN 所 需 的 计算 量 ， 并 加 速 训练 。 








mspacman_color = np.array([210, 164, 74]).mean() 


def preprocess_observation(obs): 
img = obs[1:176:2, ::2] # crop and downsize 
img = img.mean(axis=2) # to greyscale 
img[img==mspacman_color] = 0 # improve contrast 
img = (img - 128) / 128 - 1 # normalize from -1. to 1. 
return img.reshape(88, 80, 1) 





预 处 理 的 结果 显示 见 图 16-9 〈 右 ) 。 


原始 观察 (160 X210 RGB) 
预 处 理 观察 88X80 灰 度 图 ) 











图 16-9: 吃 豆 人 游戏 观察 值 ， 原 始 值 〈 左 ) 和 预 处 理 后 的 值 ( 右 ) 


下 面 来 创建 DQN。 它 可 能 只 需要 一 个 状态 -行为 对 (s，a) 作为 输 
入 ， 并 输出 一 个 根据 Q 值 q(s，a) ， 但 是 因为 行为 是 离散 的 ， 使 用 神 
经 网 络 更 为 方便 ， 只 需要 一 个 状态 s 作 为 输入 ， 并 输出 每 个 行为 的 Q 值 估 
本 DQN 由 三 个 卷 积 层 组 成 ， 后 面 跟着 两 个 全 连接 层 ， 包 括 输出 层 〈 见 
16-10) 。 


可 以 看 到 ， 我 们 使 用 的 训练 算法 需要 结构 相同 的 两 个 DQN (但 是 参 











数 不 同 ) : 一 个 用 于 在 训练 期 间 轨 驭 吃 豆 人 【演员 ) ， 男 一 个 观察 演员 
并 从 实验 和 错误 中 学 习 〈 评 论 家 ) 。 我 们 将 定期 复制 评论 家 到 演员 。 由 
和 
门 : 


输出 = Q 值 


全 连接 层 
9units 
全 连接 层 
512 units 


卷 和 


空间 


11x10x64 


64, 3x3+1(S) 


11x10x64 
卷 积 

64, 4x4 +2(S) 
卷 积 


= 1 Me) go 


22x20x32 








输入 = 状态 
图 16-10: 玩 吃 豆 人 游戏 的 深度 Q 网 络 











from tensorfJow,contrib, layers import convolution2d, fully_connected 


input_height = 88 

input_width = 80 

input_channels = 1 

conv_n_maps = [32, 64, 64] 

conv_kernel sizes = [(8,8), (4,4), (3,3)] 

conv_strides = [4, 2, 1 

conv_paddings = ["SAME"]*3 

conv_activation = [tf.nn.relu]*3 

n_hidden in = 64 * 11 * 10 # conv3 has 64 maps of 11x10 each 
n_hidden = 512 

hidden_ activation = tf.nn.relu 

n_outputs = env.action_space.n # 9 discrete actions are available 
initializer = tf.contrib.Jlayers.variance_ scaling_ initializer() 


def q_network(X_state，Scope ) : 
prev_layer = X_state 
conv_layers = [|] 
with tf.variable_ scope(scope) as scope: 
for n maps, kernel size, stride, padding, activation in zip( 
conv_n_maps, conv_kernel_ sizes, conv_strides, 
conv_paddings, conv_activation): 
prev_layer = convolution2d( 
prev_layer, num_outputs=n_maps, kernel size=kernel_ size, 
stride=stride, padding=padding, activation_ fn=activation, 
weights_initializer=initializer) 
conv_layers.append(prev_layer) 
last_conv_layer_flat = tf.reshape(prev_layer, shape=[-1, n_hidden_in]) 
hidden = fully_connected( 
last_conv_layer_flat, n_hidden, activation_fn=hidden_activation, 
weights_initializer=initializer) 
outputs = fully_connected( 
hidden, n_outputs, activation_fn=None, 
weights_initializer=initializer) 
trainable_ vars = tf.get_ collection(tf.GraphkKeys .TRAINABLE_ VARIABLES, 
scope=scope.name) 
trainable_vars_by_name = {var.name[len(scope.name):]: var 
for var in trainable_vars} 
return outputs, trainable vars_by_name 





该 代码 的 第 一 部 分 是 定义 DQN 结 构 的 超 参 数 。 然 后 使 用 
q_network () 函数 创建 DQN， 采 用 环境 状态 X_state 作 为 输入 和 环境 范 
围 的 名 称 。 注 意 因 为 计划 没有 隐藏 状态 《除了 闪烁 状态 和 幽灵 的 方 
向 ) ， 只 用 一 个 观察 者 来 表示 环境 状态 。 


trainable_vars_by_name 字 上 段 收 集 了 该 DQN 的 所 有 可 训练 变量 。 当 创 
建 复制 评论 家 DQN 到 演员 DQN 的 操作 时 ， 它 将 即时 有 用 。 和 字段 的 key 古 
变量 的 名 称 去 挥 与 之 作用 域名 称 对 应 的 前 级 。 如 下 所 示 : 














>>> trainable_vars_by_name 

{'/Conv/biases:0':; <tensorflow.python.ops.variables.Variable at QOx121cf7b50>, 
'/Conv/weights:0': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_1/biases:0': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_1i/weights:0': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_2/biases:0': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_2/weights:0': <tensorflow.python.ops.variables.Variable...>, 
'/fully_connected/biases:0': <tensorflow,.python.ops.variables.Variable...>, 
'/fully_connected/weights:0': <tensorflow.python.ops.variables.Variable...>, 
'/fully_connected 1/biases:0': <tensorflow.python.ops.variables.Variable...>, 
'/fully_connected 1/weights:0': <tensorflow.python.ops.variables.Variable...>} 





现在 ， 我 们 来 创建 输入 占 位 人 符 ， 两 个 DQN， 以 及 复制 评论 家 DQN 
到 演员 DQN 的 操作 : 





Xx_state = tf.placeholder(tf.float32, shape=[None, input_height, input_width, 
input_channels]) 

actor_q_values, actor_vars = q_network(X_state, scope="q_networks/actor") 

critic_q_values, critic vars = dq_network(X_state, scope="q_networks/critic") 


copy_ops = [actor_var.assign(critic vars[var_name]) 
for var_name, actor_var in actor_vars.items()] 
copy_critic to actor = tf.group(*copy_ops) 





让 我 们 退 一 步 : 现在 有 两 个 DQN， 它 们 都 能 够 将 环境 状态 〈 即 预 处 
理 过 的 观察 值 ) 作为 输入 ， 并 输出 该 状态 下 每 个 可 能 行为 的 预测 Q 值 。 
另外 ， 还 有 一 个 名 为 copy_critic_to_actor 的 操作 ， 复 制 评论 家 DQN 的 所 
有 可 训练 变量 到 演员 DQN。 我 们 使 用 TensorFlow 的 tt.group 〈) 函数 将 所 
有 赋值 操作 分 组 到 一 个 简单 的 操作 中 。 


演员 DQN 用 于 玩 吃 豆 人 游戏 (最 初 玩 得 很 粮 业 ) 如 前 所 述 ， 你 希 
望 它 能 够 彻底 地 探索 游戏 ， 所 以 通常 希望 它 与 e-greedy 策 略 或 者 其 他 探 
索 策 略 配 合 使 用 。 


但 是 评论 家 DQN 呢 ?” 它 将 如 何 学 习 玩 游戏 ? 简单 来 襄 ， 它 尝试 将 其 
预测 的 Q 值 与 演员 通过 体验 游戏 所 估计 的 Q 值 相 匹 配 。 具 体 来 说 ， 先 让 
演员 玩 一 会 游戏 ， 并 在 重播 存储 器 (replay memory) 中 存放 其 所 有 的 经 
验 。 每 个 存储 器 是 一 个 5 元 组 (状态 、 行 为 、 下 一 个 状态 、 回 报 、 继 
续 ) ， 当 游戏 结束 时 , “继续 ” 值 为 0.0， 或 1.0。 接 下 来 ， 将 定期 从 重播 
存储 器 中 抽样 一 批 记 忆 ， 然 后 从 中 估计 Q 值 。 最 后 ， 训 练 评论 家 DQN 使 
用 常规 学 习 技术 预测 这 些 Q 值 。 每 次 训练 碗 代 后 ， 复 制 评论 家 DQN 到 演 
员 DQN。 束 这 样 ! 公式 16-7 显 示 了 训练 评论 家 DQN 使 用 的 成 本 函数 。 


公式 16-7: 深度 Q 学 习 成 本 函数 
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MT 和 分 别 代表 从 重播 存储 器 中 采样 的 第 i 个 记忆 的 状 
态 、 行 为 、 回 报 和 下 一 个 状态 : 


m 是 记忆 批 次 的 大 小 。 
buaie 和 bu 是 评论 家 和 演员 的 参数 。 


0 ,4 ,0 ) 是 评论 家 DQN 对 第 个 记忆 的 状态 -行为 预测 的 Q 
值 。 


.0(5 ,40,0wwo) 是 演员 DQN 预 测 的 Q 值 ， 如 果 选 择 行为 48， 它 可 以 
根据 下 一 个 状态 s (i) 预测 。 


y “是 第 i 个 记忆 的 目标 Q 值 。 注 意 ， 它 等 于 演员 实际 观察 的 回 
报 ， 加 上 假设 发 挥 最 优 其 预测 的 未 来 回报 (根据 它 目 前 所 知道 的 〉。 





-/(Wor) 是 训练 评论 家 DQN 使 用 的 成 本 函数 。 正 如 你 看 见 的 ， 它 是 
演员 DQN 估 计 的 Q 值 与 评论 家 预测 的 这 些 Q 值 之 间 的 均 方 差 。 





从 天 存储 器 是 可 和 的 但 强烈 推荐 。 没 有 它 ， 可 能 需要 非常 相 
关 的 连续 经 验 训 练 评论 家 DQN。 这 将 引入 更 多 的 误差 ， 并 减 小 训练 算法 
通过 使 用 重播 内 存 ， 我 们 确保 提供 给 训练 算法 的 记忆 可 以 
、 日 尖 。 


让 我 们 添加 评论 家 DQN 的 训练 操作 。 首 先 ， 需 要 能 够 计算 记忆 批 次 
中 每 个 状态 -行为 的 预测 Q 值 。 因 为 DQN 为 每 个 可 能 的 行为 输出 一 个 Q 
值 ， 我 们 需要 保留 二 该 记忆 实际 选择 的 行为 对 应 的 Q 值 。 为 此 ， 我 们 将 
行为 转换 为 一 个 单独 的 向 量 〈 记 住 ， 该 向 量 是 一 个 除了 第 i 位 是 1， 其 他 
者 是 0 的 问 量 ) ， 并 乘 以 Q 值 ， 其 输出 除了 一 个 对 应 记忆 行为 的 Q 值 外 ， 
其 他 都 是 0。 然后 对 其 求 和 |， 得 到 想 要 的 每 个 记忆 的 Q 值 。 











X_action = tf.placeholder(tf.int32, shape=[None]) 
qd_value = tf,reduce_sum(critic q values * tf.one hot(X action, n_outputs), 
axis=1, keep_dims=True) 





假设 目标 Q 值 将 通过 占 位 符 提供 ， 接 下 来 添加 训练 操作 。 同 样 创建 


了 一 个 名 为 global_step 的 常量 。 优 化 器 的 minimize () 操作 将 负责 增加 
它 。 我 们 创建 通常 的 初始 化 (init)〉 操作 和 守护 程序 (Saver) 。 





y = tf.placeholder(tf.float32, shape=[None, 1]) 

cost = tf.reduce mean(tf.square(y - dq_value)) 

global_step = tf.Variable(0, trainable=False, name='global_ step') 
optimizer = tf.train.AdamOptimizer(learning_rate) 

training_op = optimizer .minimize(cost, global step=global_ step) 


init = tf.global variables _ initializer() 
saver = tf.train.Saver() 





这 是 构建 阶段 。 在 进入 执行 阶段 之 前 ， 我 们 需要 一 系列 工具 。 首 
先 ， 开 始 实现 重播 存储 器 。 我 们 将 使 用 双 回 队列 ， 因 为 在 达到 最 大 内 存 
时 ， 它 可 以 有 效 地 将 元 素 推送 到 队列 ， 并 从 队列 末尾 弹出 。 同 样 ， 写 一 
个 小 函数 从 重播 存储 器 中 随机 抽样 : 





from collections import deque 


replay_memory_size = 10000 
replay_memory = deque([], maxlen=replay_ memory_size) 


def sample memories(batch_ size): 
indices = rnd.permutation(len(replay memory))[:batch_ sizel] 
cols = [[], [], [], [], []] # state, action, reward, next_state, continue 
for idx in indices: 
memory = replay_ memory[idx] 
for col, value in zip(cols, memory): 
col.append(value) 
cols = [np.array(col) for col in cols] 
return (cols[0], cols[1], cols[2].reshape(-1, 1), cols[3], 
cols[4].reshape(-1, 1)) 








接 下 来 需要 演员 来 探索 游戏 。 我 们 使 用 e-greedy 策 略 ， 在 50000 个 训 
练 步骤 里 ， 将 从 1.0 逐 步 降 低 到 0.05: 





eps_min = 0.05 
eps_max = 1.0 
eps_decay_steps = 50000 


def epsilon greedy(q_values, step): 
epsilon = max(eps_ min, eps_max - (eps_max-eps_min) * step/eps_decay_steps) 
if rnd.rand() < epsilon: 
return rnd.randint(n_outputs) # random action 
else: 
return np.argmax(q_values) # optimal action 


一 一 和 


完成 了 ! 下 面 开始 训练 。 执 行 阶 段 不 是 很 复杂 ， 但 是 花费 时 间 比 较 
长 。 所 以 ， 深 呼吸 。 预 备 ， 开 始 ! 首先 ， 初 始 化 一 些 变 量 : 





n_steps = 100000 # total number of training steps 

training_start = 1000 # start training after 1,000 game iterations 
training_interval = 3 # run a training step every 3 game iterations 
save_steps = 50 # save the model every 50 training steps 

copy_steps = 25 # copy the critic to the actor every 25 training steps 
discount_rate = 0.95 

skip_start = 90 # skip the start of every game (it's just waiting time) 
batch_size = 50 

iteration = 0 # game iterations 

checkpoint_path = "./my_dqn.ckpt" 

done = True # env needs to be reset 





接 下 来 ， 打 开会 话 并 运行 主要 训练 循环 : 





with tf,.Session() as sess: 
If os.path.isfile(checkpoint_path): 
saver.restore(sess, checkpoint_path) 
else: 
init.run() 
while True: 
step = global_step.eval() 
if step >= n_steps: 
break 
iteration += 1 
if done: # game over, start again 
obs = env.reset() 
for Skip in range(skip_start): # Skip the start of each game 
obs, reward, done, info = env.step(0) 
state = preprocess_observation(obs) 


# Actor evaluates what to do 
q_values = actor_q values.eval(feed dict={X_ state: [state]}) 
action = epsilon greedy(qdq_values, step) 


# Actor plays 
obs, reward, done, info = env.step(action) 
next_state = preprocess_observation(obs ) 


# Let's memorize what just happened 
replay_memory.append((state, action, reward, next_state, 1.0 - done)) 
state = next_state 


If iteration < training_start or iteration % training_interval != 0: 
continue 


# Critic learns 
Xx_state val, Xx action val, rewards, X_next_state val, continues = ( 
sample_memories(batch_size)) 
next_q_values = actor_q_values.evall( 
feed dict={X_state: XxX next_state val}) 
max_next_q_values = np.max(next_q_values, axis=1, keepdims=True) 
y_val = rewards + continues * discount_ rate * max_next_q_values 





training_op.run(feed dict={X_state: Xx _ state val, 
X_action: Xx_action val, y: y_val}) 


# Regularly copy critic to actor 
if step % copy_steps == 0: 
copy_critic_ to_actor.run() 


# And save regularly 
if step % save_steps == 0: 
saver.save(sess, checkpoint_path) 





如 果 检 查 列表 文件 是 否 存 在 ， 我 们 从 恢复 模型 开始 ， 否 则 就 是 正常 
的 初始 化 变量 。 然 后 开始 主 循环 ，iteration 记 录 程 序 开 始 后 游戏 进行 的 
步骤 总 数 ，step 记 录 训 练 开 始 后 的 训练 步 邓 总数 (如果 检 查 点 被 恢复 ， 
全 局 步骤 也 被 恢复 ) 。 之 后 将 重 置 游戏 〈 跳 过 没 发 生 什 么 的 第 一 个 无 意 
义 的 步骤 ) 。 接 下 来 ， 演 员 评 估 该 做 什么 ， 并 玩 游戏 ， 其 经 验 存储 在 重 
播 存储 器 中 。 然 后 ， 评 论 家 定期 地 (热身 之 后 ) 通过 训练 步骤 。 评 论 家 
采样 一 下 记忆 ， 并 要 求 演 员 评 估 下 一 个 阶段 所 有 行为 的 Q 值 ， 并 使 用 公 
式 16-7 计 算 目 标 Q 值 y_val。 唯 一 需要 注意 的 是 ， 我 们 必须 用 Continues 回 
量 乘 以 下 一 个 状态 的 Q 值 来 输出 游戏 结束 时 对 应 记忆 的 0 值 。 接 下 来 ， 
运行 训练 操作 来 提供 评论 家 预测 Q 值 的 能 力 。 最 后 ， 定 期 地 将 评论 家 复 
制 到 演员 ， 并 保存 模型 。 




















千 不 埋 的 是 ， 训 练 非常 但 ， 如 果 合用 笔记 本 电脑 进行 训练， 想 要 
使 得 吃 豆 人 得 到 不 错 的 成 绩 将 花费 儿 天 时 间 。 观 察 学 习 曲 线 ， 计 算 每 次 
游戏 的 平均 回报 ， 你 会 发 现 数据 极其 吵 杂 。 在 某 些 情况 下 ， 很 长 时 间 内 
可 能 都 没有 进展 ， 直 到 代理 突然 学 会 生存 一 段 合理 的 时 间 。 如 前 所 述 ， 
一 种 解决 方案 是 为 模型 注入 尽 可 能 多 的 先 验 知识 例如， 通过 预 处 理 、 
回报 等 ) ， 还 可 以 尝试 通过 训练 它 模仿 基本 策略 来 引导 模型 。 在 任何 情 
况 下 ，RL 都 需要 很 大 的 耐心 和 尝试 ， 好 在 结果 是 令 人 兴奋 的 。 











练习 
1. 如 何 定义 强化 学 习 ? 它 和 常规 的 监督 学 习 或 无 监督 学 习 有 何 区 


别 ? 
2. 你 能 想到 3 种 本 章 没 有 提 到 的 RL 应 用 吗 ? 它们 的 环境 分 别 是 什么 
每 个 可 能 的 行为 是 什么 ? 回报 是 什么 ? 


3. 什 么 是 折扣 率 ? 如 果 改 变 了 折扣 率 ， 最 优 策略 会 改变 吗 ? 

4. 如 何 度量 强化 学 习 代 理 的 性 能 ? 

5. 什 么 是 信用 分 配 问题 ? 它 什么 时 候 发 生 ? 如 何 减 轻 它 ? 

6. 使 用 重播 内 存 的 意义 是 什么 ? 

7. 什 么 是 关闭 策略 RL 算法 ? 

8. 使 用 深度 Q 学 习 解 决 OpenAI gym 的 “BypedalWalker-v2”。 其 Q 网 络 
不 需要 很 深 。 


9. 使 用 策略 梯度 训练 代理 玩 乒 长 球 游戏 COpenAI ” gym 里 的 Pong- 
v0) 。 注 意 ， 单 个 观察 值 并 不 足以 说 明 球 的 速度 和 方向 。 一 种 解决 方案 
是 一 次 将 两 个 观察 值 传 递 给 神经 网 络 策略 。 为 了 降低 维度 、 加 速 训练 ， 
需要 对 图 片 进行 预 处 理 〈( 裁 六 、 调 整 大 小 并 转换 为 黑白 ) ， 并 将 其 合 # 
为 单个 图 片 ( 例 如 ， 通 过 禾 产 )。 


10. 如 果 有 大 约 100 美 元 的 闲钱 ， 购 买 树 短 派 3 加 一 些 便宜 的 机 器 人 
组 件 ， 为 其 安装 TensorFlow， 就 可 以 开始 玩 了 ! 例如 ， 你 可 以 看 看 
Lukas Biewald 发 表 的 一 些 好 玩 的 帖子 (https://goo.g/Eu5u28) ， 或 者 看 
看 GoPiGo 或 BrickPi。 通 过 使 用 策略 梯度 来 构建 一 个 真实 的 车 - 杆 模型 ? 
或 者 构建 一 个 学 走路 的 机 器 人 蜘蛛 当 其 解决 某 些 目标 时 给 予 其 回报 
〈 你 需要 传感器 测量 离 目 标的 距离 ) 。 唯 一 限制 你 的 是 想象 力 。 


参考 答案 详 见 附录 A。 


~ 


吗 











致谢 


在 完成 本 书 的 最 后 一 章 之 前 ， 我 想 感谢 你 读 到 了 最 后 一 段 。 我 真诚 
地 和 硕 望 阅读 本 书 给 你 带 去 很 多 乐趣 ， 和 希望 它 对 你 的 项 目 有 用 。 


如 末 友 现 错误 ， 请 反馈 给 我 。 我 更 想 知道 你 的 想法 ， 不 要 犹 驳 ， 请 
通过 O’Reilly 或 者 GitHub 项 目 ageron/handson-ml 联 系 我 。 


展望 未 来 ， 我 对 你 最 好 的 建议 是 练习 、 再 练习 ， 使 用 Jupyter 笔 记 本 
尝试 完成 所 有 你 还 没有 做 的 练习 ， 加 入 Kaggle.com 或 其 他 ML 社区 ， 观 
看 ML 课程 ， 阅 读 文献 ， 参 加 会 议 ， 拜 会 专家 。 你 可 能 还 需要 研究 本 书 
之 外 的 一 些 话题， 包括 推荐 系统 ， 聚 关 算 法 、 异 党 检测 算法 和 遗传 和 
法 。 


我 最 大 的 愿望 是 这 本 书 能 够 激励 你 构建 一 个 惠及 所 有 人 的 ML 应 
用 ， 它 将 会 是 什么 呢 ? 




















Aure&klien Geéron，2016 年 11 月 26 日 


附录 A 练习 答案 


Me 关 练 习 的 答案 可 以 在 Jupyter 笔 记 本 中 获 
得 : https://github.com/ageron/handson-ml。 
第 1 章 : 机 器 学 习 概览 
1. 机 器 学 习 是 一 门 能 够 让 系统 从 数据 中 学 习 的 计算 机 科学 。 
2. 机 器 学 习 非 常 利 于 : 不 存在 已 知 算法 解决 方案 的 复杂 问题 ， 需 要 


大 量 手 动 调整 或 是 规则 列表 超 长 的 问题 ， 创 建 可 以 适应 环境 波动 的 系 
统 ， 以 及 帮助 人 类 学 习 〈 比 如 数据 挖掘 〉。 


3. 被 标记 的 训练 集 是 指 包含 每 个 实例 所 期 望 的 解决 方案 的 训练 集 。 
4. 最 第 见 的 两 个 监督 式 任务 是 回归 和 分 类 。 
5. 常 见 的 无 监督 式 任务 包括 聚 类 、 可 视 化 、 降 维和 关联 规则 学 习 。 


6. 如 果 想 让 机 器 人 学 会 如 何在 各 种 未 知 地 形 上 行走 ， 强 化 学 习 可 能 
表现 最 好 ， 因 为 这 正 是 一 个 典型 的 强化 学 习 擅 长 解决 的 问题 。 将 这 个 问 
题 表达 为 监督 式 或 半 监 督 式 学 习 问题 也 可 以 ， 但 还 是 有 反 不 太 目 然 。 


7. 如 果 你 不 知道 如 何 定义 分 组 ， 那 么 可 以 使 用 聚 类 算法 〈 无 监督 式 
学 习 ) 将 相似 的 顾客 分 为 一 组 。 但 是 ， 如 果 你 知道 想 要 的 是 什么 样 的 群 
组 ， 那 么 可 以 将 每 个 组 的 多 个 示例 反馈 给 分 类 算法 〈 监 督 式 学 习 ) ， 它 
就 可 以 将 所 有 的 顾客 归 类 到 这 些 组 中 。 


8. 垃 圾 邮件 检测 是 个 典型 的 监督 式 学 习 问 题 : 将 邮件 和 它们 的 标签 
《垃圾 邮件 或 非 垃 圾 邮件 ) 一 起 提供 给 算法 。 


9. 在 线 学 习 系 统 可 以 进行 增 量 学 习 ， 与 批量 学 习 系 统 正好 相反 。 这 
使 得 它 能 够 快速 适应 不 断 变 化 的 数据 和 目 动 化 系统 ， 并 且 能 够 在 大 量 的 
数据 上 进行 训练 。 


10. 核 外 算法 可 以 处 理 计算 机 主 内 存 无 法 应 对 的 大 量 数据 。 它 将 数 
据 分 割 成 小 批量 ， 然 后 使 用 在 线 学 习 技 术 从 这 些小 批量 中 学 习 。 




















11. 基 于 实例 的 学 习 系 统 通过 死记 硬 背 来 学 习 训练 数据 ， 当 给 定 一 
A 
进行 预测 。 


12. 模 型 有 一 个 或 多 个 参数 ， 这 些 参数 决定 了 模型 对 新 的 给 定 实例 
会 做 出 上 怎样 的 预测 比如， 线性 模型 的 斜 灰 ) 。 学 习 算 法 试图 找到 这 些 
参数 的 最 佳 值 ， 使 得 该 模型 能 够 很 好 地 泛 化 至 新 实例 。 超 参数 是 学 习 算 
法 本 号 的 参数 ， 不 是 模型 的 参数 〈 比 如， 要 应 用 的 正则 化 数量 )。 


13. 基 于 模型 的 学 习 算法 搜索 使 模型 泛 化 最 佳 的 模型 参数 值 。 通 党 
通过 使 成 本 函数 最 小 化 来 训练 这 样 的 系统 ， 成 本 函数 衡量 的 是 系统 对 训 
练 数据 的 预测 有 多 坏 ， 如 果 模型 有 正则 化 ， 则 再 加 上 一 个 对 模型 复杂 度 
的 惩罚 。 学 习 算法 最 后 找到 的 参数 值 就 是 最 终 得 到 的 预测 函数 ， 只 需要 
将 实例 特征 提供 给 这 个 预测 函数 即 可 进行 预测 。 


14. 机 器 学 习 面 临 的 一 些 主要 挑战 是 : 数据 缺乏 、 数 据 质 量 差 、 数 
据 不 具 代 表 性 、 特 征 不 具 信息 量 、 模 型 过 于 简单 对 训练 数据 拟 合 不 足 ， 
以 及 模型 过 于 复杂 对 训练 数据 过 度 拟 合 。 


15. 如 果 模型 在 训练 数据 上 表现 很 好 ， 但 是 对 新 实例 的 泛 化 能 力 很 

差 ， 那 么 该 模型 很 可 能 过 度 拟 合 训练 数据 (或 者 在 训练 数据 上 运气 大 

好 ) 。 可 能 的 解决 方案 是 ， 获 取 更 多 数据 ， 简 化 模型 (选择 更 简单 的 算 

法 ， 减 少 使 用 的 参数 或 特征 数量 、 对 模型 正则 化 ， 或 者 是 减少 训练 数 
9 噪声 。 


16. 在 模型 局 动 至 生产 环境 之 前 ， 使 用 测试 集 来 估算 模型 在 新 实例 
上 的 泛 化 误工 。 
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18. 如 末 使 用 测试 集 来 调整 超 参 数 ， 会 有 过 上 度 拟 合 测试 集 的 风险 ， 
最 后 测量 的 泛 化 误差 会 过 于 乐观 (最 后 启动 的 模型 性 能 比 预期 的 要 
2 


19. 通 过 交叉 验证 技术 ， 可 以 不 需要 单独 的 验证 集 实 现 模 型 比较 
《用 于 模型 选择 和 调整 超 参数 ) 。 这 节省 了 宝贵 的 训练 数据 。 











第 2 章 : 端 到 端的 机 器 学 习 项 目 


参见 Jupyter 笔 记 本 : https://github.com/ageron/handson-ml。 





第 3 章 : 分 类 
参见 Jupyter 笔 记 本 : https://github.com/ageron/handson-ml。 
第 4 章 : 训练 模型 


1. 如 果 训 练 集 有 数 百 万 个 特征 ， 你 可 以 使 用 随机 梯度 下 降 或 者 是 小 
批量 梯度 下 降 ， 如 果 内 存 允 许 ， 甚 至 可 以 使 用 批量 梯度 下 降 。 但 是 由 于 
计算 复杂 度 随 着 特征 数量 的 增加 而 快速 提升 〈 比 二 次 方 还 高 )》 ， 因 此 不 
能 使 用 标准 方程 的 方法 。 


2. 如 果 训 练 集 的 特征 数值 具有 非常 过 寞 的 尺寸 比例 ， 成 本 函数 将 呈 
现 为 细 长 的 碗 状 ， 这 导致 梯度 下 降 算法 将 耗费 很 长 时 间 来 收 代 。 要 解雇 
这 个 问题 ， 需 要 在 训练 模型 之 前 先 对 数据 进行 缩放 。 值 得 注音 的 是 ， 使 
用 标准 方程 法 ， 不 经 过 特征 缩放 也 能 正常 工作 。 


3. 训 练 逻辑 回归 模型 时 ， 梯 上 度 下 降 不 会 陷入 局 部 最 小 值 ， 因 为 它 的 
成 本 函数 是 凸 函数 。 也 


4. 如 果 优化 问题 是 凸 的 〈 例 如 线性 回归 或 者 逻辑 回归 ) ， 并 且 学 习 
率 也 不 是 太 高 ， 那 么 所 有 梯度 下 降 算 法 都 可 以 接近 全 局 最 优 ， 最 终生 成 
的 模型 都 非常 相似 。 但 是 ， 除 非 逐 渐 降 低 学 习 率 ， 人 否则 随机 梯度 下 降 和 
小 批量 梯度 下 降 都 不 会 真正 收 和 但。 相反 ， 它 们 会 不 断 在 全 局 最 优 的 附近 
波动 。 也 就 是 说 ， 即 使 运行 时 间 非 常 长 ， 这 些 梯度 下 降 算 法 产生 的 模型 
仍然 会 有 轻微 不 同 。 


5. 如 果 验 证 误 送 开始 每 轮 上 升 ， 那 么 可 能 性 之 一 是 学 习 率 太 高 ， 算 
法 开始 及 散 所 致 。 如 果 训 练 误差 也 开始 上 升 ， 那 么 很 显然 你 需要 降低 学 
习 率 了 。 但 是 ， 如 果 训 练 误 兰 没有 上 升 ， 那 么 模型 很 可 能 过 度 拟 合 训 练 
集 ， 应 该 立刻 停止 训练 。 


6. 无 论 是 随机 梯度 下 降 还 是 小 批量 梯度 下 降 ， 由 于 它们 的 随机 性 ， 
使 得 它们 都 不 能 保证 在 每 一 次 的 训练 迭代 中 都 取得 进展 。 所 以 ， 如 果 在 
验证 误 兰 刚 开 始 上 升 时 就 停止 训练 ， 很 有 可 能 会 在 达到 最 优 之 前 过 早 停 





























止 训练 。 更 好 的 方法 是 定时 保存 模型 ， 当 较 长 一 段 时 间 都 没有 改善 时 
(总 味 者 可 能 不 会 再 超过 最 好 的 记录 了 》， 可 以 局 复 到 保 三 的 最 优 模 
型 。 








7. 随 机 梯度 下 降 的 训练 碗 代 最 快 ， 因 为 它 一 次 只 考虑 一 个 训练 实 
例 ， 所 以 通常 来 说 ， 它 会 最 快 到 达 全 局 最 优 的 附近 (或 者 是 批量 非常 小 
的 小 批量 梯度 下 降 ) 。 但 是 ， 只 有 批量 梯度 下 降 才 会 经 过 足够 长 时 间 的 
训练 后 真正 收 化 。 对 于 随机 梯度 下 降 和 小 批量 标 度 下 降 来 说 ， 除 非 逐 渐 
调 低 学 习 率 ， 否 则 将 一 直 围 绕 最 小 值 上 上 下 下 。 


8. 如 果 验 证 误差 远 高 于 训练 误差 ， 可 能 是 因为 模型 过 度 拟 合 训 练 
集 。 解 决 这 个 问题 的 方法 之 一 是 对 多 项 式 降 阶 : 目 由 度 越 低 的 模型 ， 过 
度 拟 合 的 可 能 性 越 低 。 男 一 个 方法 是 对 模型 进行 正则 化 一 一 例如 ， 在 成 
本 函数 中 增加 2 〈 岭 回归 ) 或 1 (Lasso 回 归 ) 答 罚 ， 同 样 可 以 降低 模型 
的 自由 度 。 最 后 ， 你 还 可 以 尝试 扩大 训练 集 。 


9. 如 果 训 练 误差 和 验证 误差 相近 ， 并 且 痢 非常 蜗 ， 则 模型 很 可 能 对 
训练 集 拟 合 不 足 。 这 意味 着 偏差 较 高 ， 应 该 尝试 降低 正则 化 超 参数 。 


10. 我 们 来 看 看 : 


:有 正则 化 的 模型 通常 比 没有 正则 化 的 模型 表现 得 更 好 ， 所 以 应 该 
优先 选择 岭 回归 而 不 是 普通 的 线性 回归 。 乌 


-Lasso 回 归 使 用 1 惩 如 函数， 往往 倾 问 于 将 不 重要 的 特征 权重 降 至 
零 。 这 将 生成 一 个 除了 最 重要 的 权重 之 外 ， 其 他 所 有 权重 都 为 零 的 稀 下 
模型 。 这 是 目 动 执行 特征 选择 的 一 种 方法 ， 如 果 你 党 得 只 有 少数 几 个 特 
征 是 真正 重要 的 ， 这 不 失 为 一 个 非常 好 的 选择 ， 但 是 当 您 不 确定 的 时 
候 ， 应 该 更 青睐 岭 回归 模型 。 


弹性 网 络 比 Lasso 更 受 欢迎 ， 因 为 某 些 情况 下 Lasso 可 能 产生 异常 表 
现 《例如 当 多 个 特征 强 相 关 ， 或 者 特征 数量 比 训练 实例 多 时 ) 。 并 且 ， 
弹性 网 络 会 添加 一 个 额外 的 超 参 数 来 对 模型 进行 调整 。 如 果 你 想 使 用 
Lasso， 只 需要 将 弹性 网 络 的 11_ratio 设 置 为 接近 1 即 可 。 


11. 要 将 图 片 分 类 为 户外 /室内 和 日 天 /夜间 ， 你 应 该 训练 两 个 逻辑 回 
归 分 类 器 ， 因 为 这 些 类 别 之 间 并 不 是 排他 的 存在 四 种 组 合 〉。 












































12. 参 见 Jupyter 笔 记 本 : https://github.com/ageron/handson-ml。 
第 5 章 : 文 持 向 量 机 


1. 文 持 癌 量 机 的 基本 思想 是 拟 合 类 别 之 间 可 能 的 、 最 宽 的 “街道 ”。 
换言之 ， 它 的 目的 是 使 决策 边界 之 间 的 间 隅 最 大 化 ， 从 而 分 隔 出 两 个 类 
别 的 训练 实例 。SVM 执 行 软 间隔 分 类 时 ， 实 际 上 有 是 在 完美 分 类 和 拟 合 最 
宽 的 街道 之 间 进 行 妥 协 《〈 也 就 是 允许 少数 实例 最 终 还 是 落 在 街道 上 ) 。 
还 有 一 个 关键 点 是 在 训练 非 线 性 数据 集 时 ， 记 得 使 用 核 函数 。 


2. 文 持 疝 量 机 的 训练 完成 后 ， 位 于 “街道 ”参考 上 一 个 答案 ) 之 上 
的 实例 被 称 为 文 持 问 量 ， 这 也 包括 处 于 边界 上 的 实例 。 决 策 边 界 完 全 由 
支持 向 量 决 定 。 非 文 持 向 量 的 实例 〈 也 就 是 街道 之 外 的 实例 ) 完全 没有 
任何 影响 ， 你 可 以 选择 删除 它们 然后 添加 更 多 的 实例 ， 或 者 是 将 它们 移 
开 ， 只 要 一 直 在 街道 之 外 ， 它 们 融 不 会 对 决策 边界 产生 任何 影响 。 计 算 
预测 结果 只 会 涉及 文 持 网 量 ， 而 不 涉及 整个 训练 集 。 


3. 文 持 癌 量 机 拟 合 类 别 之 间 可 能 的 、 最 宽 的 “街道 ”( 参 考 第 一 题 答 
案 ) ， 所 以 如 果 训 练 集 不 经 缩放 ，SVM 将 趋 于 忽略 值 较 小 的 特征 《〈 见 图 
5-2) 。 

















4. 文 持 问 量 机 分 类 器 能 够 输出 测试 实例 与 决策 边界 之 间 的 距离 ， 你 
可 以 将 其 用 作 信 心 分 数 。 但 是 这 个 分 数 不 能 直接 转化 成 类 别 概率 的 估 
算 。 如 果 创 建 SVM 时 ， 在 Scikit-Learn 中 设置 probability=True， 那 么 训练 
完成 后 ， 算 法 将 使 用 逻辑 回归 对 SVM 分 数 进行 校准 〈 对 训练 数据 额外 进 
行 5- 折 交叉 验 证 的 训练 ) ， 从 而 得 到 概率 值 。 这 会 给 SVM 添加 
predict_proba () 和 Ppredict_log_proba 〈) 两 种 方法 。 


5. 这 个 问题 仅 适 用 于 线性 支持 向 量 机 ， 因 为 核 SVM 只 能 使 用 对 侦 问 
题 。 对 于 SVM 问题 来 说 ， 原 始 形式 的 计算 复杂 上 度 与 训练 实例 的 数量 成 正 
比 ， 而 其 对 偶 形 式 的 计算 复杂 度 与 茶 个 介 于 m2 和 m3 之 间 的 数量 成 正 
比 。 所 以 如 果实 例 的 数量 以 百 万 计 ， 一 定 要 使 用 原始 问题 ， 因 为 对 侦 问 


题 会 非常 慢 。 


6. 如 果 一 个 使 用 RBF 核 训 练 的 文 持 问 量 机 对 训练 集 拟 合 不 足 ， 可 能 
征 由 于 过 度 正 则 化 导致 的 。 您 需要 提升 gamma 或 C《〈 或 同时 提升 二 者 ) 
来 降低 正则 化 。 

















7. 我 们 把 硬 间隔 问题 的 QP 参 数 定义 为 H、f、A' 及 b'。 软 间隔 问题 的 
QP 参 数 还 包括 m 个 额外 参数 (np=n+l+tm) 及 m 个 额外 约束 (nc=2m) 。 
它们 可 以 这 样 定义 : 





了 等 于 在 H 右 侧 和 底部 分 别 加 上 m 列 和 m 行 个 0: 
{等 于 有 m 个 附加 元 素 的 f， 全 部 等 于 超 参 数 C 的 值 
b 等 于 有 m 个 附加 元 素 的 b'， 全 部 等 于 0 

'A 等 于 在 A' 的 右 侧 添加 一 个 mxm 的 单位 矩阵 In， 在 这 个 单位 矩阵 的 


A” I | 


并 | 
正 下 方 再 添加 单位 矩阵 -I”"， 和 列 余 部 分 为 0: = 


对 于 练习 8 至 练习 10 的 解答 ， 参 见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 


第 6 章 : 决策 树 


1 一 个 包含 m 个 叶 厄 点 的 均衡 二 叉 树 的 深度 等 于 log，。(m) 〈 注 : 
log> 表 示 以 2 为 底 的 log 函 数 ，log。，(Cm) =log (m) /log (2) 。) 的 四 伟 
五 入 。 通 常 来 说 ， 二 元 决策 树 训 练 到 最 后 大 体 都 是 平衡 的 ， 如 果 不 加 以 
限制 ， 最 后 平均 每 个 叶 节 点 一 个 实例 。 因 此 ， 如 果 训 练 集 包 含 一 百 万 个 
实例 ， 那 么 决策 树 深 度 约 等 于 log (106) ws20 层 (实际 上 会 更 多 一 些 ， 
因为 决策 树 通 常 不 可 能 完美 平衡 ，。 


2 一 个 节操 的 基尼 不 纯度 通常 比 其 父 节 点 低 。 这 是 通过 CART 训 练 
算法 的 成 本 函数 确保 的 。 该 算法 分 裂 每 个 节点 的 方法 ， 就 是 使 其 于 节点 
的 基尼 不 纯度 的 加 权 之 和 最 小 。 但 是 ， 如 果 一 个 子 市 点 的 不 纯度 远 小 于 
为 一 个 ， 那 么 也 有 可 能 使 子 市 点 的 基尼 不 纯度 比 其 父 市 点 高 ， 只 要 那个 
不 纯度 更 低 的 子 市 反 能 够 抵偿 这 个 增加 即 可 。 举 例 来 说 ， 假 设 一 个 市 反 
包含 4 个 A 类 别 的 实例 和 1 个 B 类 别 的 实例 ， 其 基尼 不 纯度 等 于 


ff 


5 5 “““。 现在 我 们 假设 数据 集 是 一 维 的 ， 并 且 实 例 的 排列 顺序 























如 下 : A， 也， A， A， A。 你 可 以 验证 ， 算法 将 在 第 二 个 实例 后 拆 分 该 
节 友 ， 从 而 生成 两 个 子 节 所 所 包含 的 实例 分 别 为 A，B 和 A，A，A。 第 
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-4 、\ 1] 一 一 一 一 一 0.4 入 十 上 二 vy» 和 A 
一 个 子 节 点 的 基尼 不 纯度 为 ”于 有 “”， 比 其 父 节点 要 高 。 这 是 因为 第 
, Te x0.5+2x0=02 
二 个 子 节点 是 纯 的 ， 所 以 总 的 加 权 基 尼 不 纯度 等 于 ，5”” 5” 低 
于 父 节 点 的 基尼 不 纯度 。 


3. 如 果 诀 集 树 过 度 拟 合 训练 集 ， 降 低 max_depth 可 能 是 一 个 好 主意 ， 
因为 这 会 限制 模型 ， 使 其 正则 化 。 


4. 决 集 树 的 优点 之 一 就 是 它们 不 关心 训练 数据 是 否 缩放 或 是 集中 ， 
J 对 训练 集 拟 合 不 足 ， 红 放 输入 特征 不 过 是 浪费 时 间 罢 














5. 决 策 树 的 训练 复杂 度 为 O (nxmlog (m) ) 。 所 以 ， 如 果 将 训练 
集 大 小 乘 以 10， 训 练 时 间 将 乘 以 K= Cnx10mxlog (10m) ) / 
(nxmxlog (m) ) =10xlog (10m) /log (m) 。 如 果 m=106， 那 么 
Ks11.7， 所 以 训练 1000 万 个 实例 大 约 需 要 11.7 小 时 。 


6. 只 有 当 数 据 集 小 于 数 千 个 实例 时 ， 预 处 理 训 练 集 才 可 以 加 速 训 
练 。 如 果 包 含 100000 个 实例 ， 设 置 presort=True 会 显著 减 慢 训练 。 


对 于 练习 7 和 练习 8 的 解答 ， 参 见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 


第 7 章 : 集成 学 习 和 随机 森林 


1. 如 果 你 已 经 训练 了 五 个 不 同 的 模型 ， 并 且 都 达到 了 95%% 的 精度 ， 
你 可 以 尝试 将 它们 组 合成 一 个 投票 集成 ， 这 通常 会 带 来 更 好 的 结果 。 如 
果 模 型 之 间 非 常 不 同 ( 例 如 ， 一 个 SVM 分 类 器 ， 一 个 决策 树 分 类 器 ， 以 
及 一 个 Logistic 回 归 分 类 器 等 ) ， 则 效果 更 优 。 如 果 它 们 是 在 不 同 的 训 
练 实例 〈 这 是 bagging 和 pasting 集 成 的 关键 点 ) 上 完成 训练 ， 那 束 更 好 
了 ， 但 如 果 不 是 ， 只 要 模型 非常 不 同 ， 这 个 集成 仍然 有 效 。 


2. 便 投票 分 类 器 只 是 统计 每 个 分 类 器 的 投票 ， 然 后 挑选 出 得 票 最 多 


的 类 别 。 软 投票 分 类 器 计算 出 每 个 类 别 的 平均 估算 概率 ， 然 后 选 出 概率 
最 高 的 类 别 。 它 比重 投票 法 的 表现 更 优 ， 因 为 它 给 予 那 些 高 度 上 自信 的 投 











票 更 高 的 权重 。 但 是 它 要 求 每 个 分 类 需 都 能 够 估算 出 类 别 概率 才 可 以 正 
常 工作 〈 例 如 ，Scikit-Learn 中 的 SVM 分 类 器 必须 要 设置 
probability=True) 。 


3. 对 于 bagging 集 成 来 说 ， 将 其 分 布 在 多 个 服务 器 上 能 够 有 效 加 速 训 
练 过 程 ， 因 为 集成 中 的 每 个 预测 露 都 是 独立 工作 的 。 同 理 ， 对 于 pasting 
集成 和 随机 森林 来 说 也 是 如 此 。 但 是 ，boosting 集 成 的 每 个 预测 需 都 是 
基于 其 前 序 的 结果 ， 因 此 训练 过 程 必须 是 有 序 的 ， 将 其 分 布 在 多 个 服务 
项 上 至 无 意义 。 对 于 stacking 集 成 来 说 ， 菏 个 指定 层 的 预测 喜之 间 役 此 
独立 ， 因 而 可 以 在 多 台 服 务 器 上 并 行 训 练 ， 但 是 ， 茶 一 层 的 预测 右 只 能 
在 其 前 一 层 的 预测 器 全 部 训练 完成 之 后 ， 才 能 开始 训练 。 


4. 包 外 评估 可 以 对 bagging 集 成 中 的 每 个 预测 器 使 用 其 未 经 训练 的 实 
例 进行 评 佑 。 不 需要 额外 的 验证 集 ， 就 可 以 对 集成 实施 相当 公正 的 评 
佑 。 所 以 ， 如 果 训 练 使 用 的 实例 越 多 ， 集 成 的 性 能 可 以 略 有 提升 。 


5. 随 机 森林 在 生长 过 程 中 ， 每 个 节点 的 分 裂 仅 考虑 到 了 特征 的 一 个 
随机 子 集 。 极 限 随 机 树 也 是 如 此 ， 它 甚至 走 得 更 远 : 常规 决策 树 会 搜索 
出 特征 的 了 最 佳 国 值 ， 极 限 随 机 树 直接 对 每 个 特征 使 用 随机 闭 值 。 这 种 极 
限 随机 性 就 像 是 一 种 正则 化 的 形式 : 如 果 随 机 森林 对 训练 数据 出 现 过 度 
拟 合 ， 那 么 极限 随机 树 可 能 执行 效果 更 好 。 更 甚 的 是 ， 极 限 随机 树 不 需 
要 计算 最 佳 闵 值 ， 因 此 它 训练 起 来 比 随机 森林 快 得 多 。 但 是 ， 在 做 预测 
的 时 候 ， 相 比 随机 森林 它 不 快 也 不 慢 。 


6. 如 果 你 的 AdaBoost 集 成 对 训练 集 拟 合 不 足 ， 可 以 尝试 提升 估算 右 
ee 你 也 可 以 尝试 略微 提升 学 
习 至 。 

7. 如 果 你 的 梯度 提升 集成 对 训练 集 过 度 拟 合 ， 你 应 该 试 着 降低 学 习 
。 也 可 以 通过 早 停 法 来 寻找 合适 的 预测 堪 数 量 〈 可 能 是 因为 预测 器 太 

Yi 


对 于 练习 8 和 练习 9 的 解答 ， 参 见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 


第 8 章 : 降 维 


1. 动 机 和 弊端 : 























降 维 的 主要 动机 是 : 


:为 了 加 速 后 续 的 训练 算法 在 某 些 情况 下 ， 也 可 能 为 了 消除 噪声 
和 元 余 特 征 ， 使 训练 算法 性 能 更 好 ) 


为 了 将 数据 可 视 化 ， 并 从 中 获得 洞察 ， 了 解 最 重要 的 特征 


只 是 为 了 节省 空间 《压缩 ) 








:为 机 器 学 习 流水 线 增添 了 些许 复杂 度 
.转换 后 的 特征 往往 难以 解释 


2. 维 度 的 诅 如 是 指 许多 在 低 维 空间 中 不 存在 的 问题 ， 在 高 维 空间 中 
发 生 。 在 机 器 学 习 领 域 ， 一 个 常见 的 现象 是 随机 抽样 的 高 维 辣 量 通常 非 
常 稀 朴 ， 提 升 了 过 度 拟 合 的 风险 ， 同 时 也 使 得 在 没有 充足 训练 数据 的 情 
况 下 ， 要 识别 数据 中 的 模式 非常 困难 。 


3. 一 旦 使 用 我 们 讨论 的 任意 算法 减少 了 数据 集 的 维度 ， 几 乎 不 可 能 
再 将 操作 完美 地 逆转 ， 因 为 在 降 维 过 程 中 必然 丢失 了 一 部 分 信息 。 虽 然 
有 一 些 算法 (例如 PCA) 拥有 简单 的 逆转 换 过程 ， 可 以 重建 出 与 原始 数 
据 集 相似 的 数据 集 ， 但 是 也 有 一 些 算法 不 能 实现 逆转 (例如 T-SNE)。 


4. 对 大 多 数 数据 集 来 说，PCA 可 以 用 来 进行 显著 降 维 ， 即 便 是 高 度 
非 线性 的 数据 集 ， 因 为 它 至 少 可 以 消除 无 用 的 维度 。 但 是 如 果 不 存 在 无 
用 的 维度 《例如 瑞士 卷 ) ， 那 么 使 用 PCA 降 维 将 会 损失 太 多 信息 。 你 布 
望 的 是 将 瑞士 卷 展开 ， 而 不 是 将 其 压 局 。 


5. 这 是 个 不 好 回答 的 问题 ， 它 取决 于 数据 集 。 我 们 来 看 看 两 个 极端 
的 例子 。 首 先 ， 假 设 数 据 集 是 由 几乎 完全 对 齐 的 点 组 成 的 ， 在 这 种 情况 
下 ，PCA 可 以 将 数据 集 降 至 一 维 ， 同 时 保留 95% 的 差异 性 。 现 在 ， 试 想 
数据 集 由 完全 随机 的 点 组 成 ， 分 散在 1000 个 维度 上 ， 在 这 种 情况 下 ， 需 
要 在 1000 个 维度 上 保留 95% 的 差异 性 。 所 以 ， 这 个 问题 的 答案 是 : 取决 























于 数据 集 ， 它 可 能 是 1 到 1000 之 间 的 任何 数字 。 将 解释 方差 绘制 成 天 于 
维度 数量 的 函数 ， 可 以 对 数据 集 的 内 在 维度 获得 一 个 粗略 的 概念 。 


6. 常 规 PCA 是 默认 选择 ， 但 是 它 仅 适 用 于 内 存 足够 处 理 训练 集 的 时 
候 。 增 量 PCA 对 于 内 存 无 法 支持 的 大 型 数据 集 非常 有 用 ， 但 是 它 比 常规 
PCA 要 来 得 慢 一 些 ， 所 以 如 果 内 存 能 够 支持 ， 还 是 应 该 使 用 常规 PCA。 
当 你 需要 随时 应 用 PCA 来 处 理 每 次 新 增 的 实例 时 ， 增 量 PCA 对 于 在 线 任 
务 同样 有 用 。 当 你 想 大 大 降低 维度 数量 ， 并 且 内 存 能 够 支持 数据 集 时 ， 
使 用 随机 PCA 非 常 有 效 ， 它 比 常规 PCA 快 得 多 。 最 后 对 于 非 线性 数据 
集 ， 使 用 核 化 PCA 行 之 有 效 。 


7. 直 观 来 说 ， 如 果 降 维 算法 能 够 消除 许多 维度 并 且 不 会 丢失 太 多 信 
息 ， 那 么 这 就 算 一 个 好 的 降 维 算法 。 进 行 衡量 的 方法 之 一 是 应 用 逆转 换 
然后 测量 重建 误差 。 然 而 并 不 是 所 有 的 降 维 算法 都 提供 了 逆转 换 。 还 有 
为 一 种 选择 ， 如 果 你 将 降 维 当 作 一 个 预 处 理 过 程 ， 用 在 其 他 机 噩 学 习 算 
法 (比如 随机 森林 分 类 器 之 前 ， 那 么 可 以 通过 简单 测量 第 二 个 算法 的 
性 能 来 进行 评估 。 如 果 降 维 过 程 没 有 损失 太 多 信息 ， 那 么 第 二 个 算法 的 
性 能 应 该 跟 使 用 原始 数据 集 一 样 好 。 


8. 链 接 两 个 不 同 的 降 维 算法 绝对 是 有 意义 的 。 第 见 的 例子 是 使 用 
PCA 快 速 去 除 大 量 无 用 的 维度 ， 然 后 应 用 另 一 种 更 慢 的 降 维 算法 ， 如 
LLE。 这 样 两 步 走 的 策略 产生 的 结果 可 能 与 仅 使 用 LLE 相 同 ， 但 是 时 间 


要 短 得 多 。 


对 于 练习 9 和 练习 10 的 解答 ， 参 见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 

















第 9 草 : 运行 TensorFlow 
1. 创 建 计算 图 而 不 是 直接 计算 的 主要 优 缺 点 是 什么 ? 
主要 优点 : 
“TensorFlow 可 以 自动 计算 梯度 (通过 反 同 的 autodiff〉。 
“TensorFlow 负 责 在 不 同 的 线程 中 并 行 执 行 各 个 操作 。 
` 它 可 以 更 容易 地 在 多 设备 上 运行 同一 个 模型 。 


: 它 简化 了 查看 ， 比 如 ， 在 TensorBoard 上 查看 模型 。 
主要 缺点 : 

学 习 曲 线 陡 峭 。 

逐步 的 调试 比较 困难 。 


2. 是 的 ， 语 句 a_val=a.eval (session=sess) 和 a val=sess.run (a) 完 


全 相等 。 


3. 语 句 a_val，b_val=a.eval (session=sess) ，b.eval (ses sion=sess) 
不 等 于 a_val，b_val=sess.run 〈[a，b]) 。 第 一 条 语句 会 运行 两 次 〈 第 一 
次 计算 a， 第 二 次 计算 b) ， 而 第 二 条 语句 只 运行 一 次 。 如 果 这 些 操作 
(或 者 它们 依赖 的 操作 〉 中 的 任意 一 个 具有 副作用 比如， 修改 一 个 变 
量 ， 疝 队列 中 插入 一 条 记录 ， 或 者 读 取 一 个 文件 等 ) ， 那 么 效果 就 会 不 
同 。 如 果 操 作 没 有 副作用 ， 那 么 语句 会 返回 同样 的 结果 ， 不 过 第 二 条 语 


句 会 比 第 一 条 快 。 


二 同一 个 会 话 中 运行 两 个 计算 图 。 你 需要 将 两 个 图 合并 为 
-二 


5. 在 本 地 TensorFlow 中 ， 会 话 用 来 管理 变量 的 值 ， 如 果 你 创建 了 一 
个 包含 变量 w 的 图 g， 然 后 启动 两 个 线程 ， 并 在 每 个 线程 中 打开 一 个 本 
地 的 会 话 ， 这 两 个 线程 使 用 同一 个 图 g， 那 么 每 个 会 话 会 拥有 目 己 的 w 
的 拷贝 。 如 果 在 分 布 式 的 TensorFlow 中 ， 变 量 的 值 则 存储 在 由 集群 管理 
的 容器 中 ， 如 果 两 个 会 话 连接 了 同一 个 集群 ， 并 使 用 同一 个 容器 ， 那 么 
它们 会 共享 变量 w。 

6. 变 量 在 调用 其 初始 化 器 的 时 候 被 初始 化 ， 在 会 话 结束 的 时 候 被 销 
毁 。 在 分 布 式 TensorFlow 中 ， 变 量 存活 于 集群 上 的 容器 中 ， 所 以 关闭 一 
个 会 话 不 会 销毁 变量 。 要 销毁 一 个 变量 ， 你 需要 清空 它 所 在 的 容 占 。 

7. 变 量 和 占 位 符 完 全 不 同 ， 不 过 初学 者 往往 会 混 消 它 们 : 

:变量 是 包含 一 个 值 的 操作 。 你 执行 一 个 变量 ， 它 会 返回 对 应 的 


值 。 在 执行 之 前 ， 你 需要 初始 化 变量 。 你 可 以 修改 变量 的 值 《比如 ， 通 
过 使 用 赋值 操作 ) 。 变 量 有 状态 : 在 连续 运行 图 时 ， 变 量 保 持 相同 的 


























值 。 通 党 它 补 用 作 保 存 模型 的 参数 ， 不 过 也 可 以 用 作 其 他 用 途 〈 比 如 ， 
对 全 局 训练 的 步 数 进行 计数 )。 


占 位 符 则 只 能 做 很 少 的 事 儿 : 它们 只 有 其 所 代表 的 张 量 的 类 型 和 
形状 的 信息 ， 但 没有 值 。 事 实 上 ， 如 果 你 要 对 一 个 依赖 于 占 位 符 的 操作 
进行 求 值 ， 你 必须 先 为 其 传 值 〈 通 过 feed_dict) ， 人 否则 你 会 得 到 一 个 异 
第 。 占 位 符 通 种 在 被 用 作 在 执行 期 为 训练 或 者 测试 数据 传 值 。 在 将 值 传 
0 





8. 如 果 运 行 计算 图 来 求 值 一 个 依赖 于 占 位 符 的 操作 ， 但 不 提供 值 ， 
则 会 及 生 异 第 。 如 果 操 作 不 依赖 于 占 位 答 ， 则 不 会 引发 异 第 。 


9. 当 你 运行 一 个 图 时 ， 可 以 提供 任何 操作 的 输出 值 ， 而 不 仅仅 是 占 
位 符 的 值 。 在 实践 中 ， 这 种 情况 很 少见 (有 时候 会 是 有 用 的 ， 比 如 你 要 
缓存 冷冻 层 的 输出 时 ， 详 见 第 11 章 )〉。 


10. 你 可 以 在 构造 一 个 图 时 指定 变量 的 初始 值 ， 它 会 在 后 边 的 执行 
期 运行 变量 初始 化 器 的 时 候 被 初始化。 如 果 你 想 在 执行 期 修改 变量 的 
值 ， 那 么 最 简单 的 方式 是 使 用 tt.assign 函 数 创建 一 个 赋值 节点 〈 在 图 的 
构造 期 ， 将 变量 和 一 个 占 位 符 传 入 作为 参数 。 这 样 ， 你 可 以 在 执行 期 
运行 复制 操作 来 为 变量 传 入 新 值 。 














Import tensorflow as tf 


x = tf.Variable(tf.random uniform(shape=(), minval=0.0, maxval=1.0)) 
x_new val = tf.placeholder(shape=(), dtype=tf.float32) 
x_assign = tf.assign(x, x_new_val) 


with tf.Session(): 
x.initializer.run() # random number is sampled *now* 
print(x.eval()) # 0.646157 (some random number) 
x_assign.eval(feed_dict={x_new_ val: 5.0}) 
print(x.eval()) # 5.0 











11. 要 计算 任意 数量 变量 的 成 本 函数 的 梯度 ， 反 回 模 式 的 autodiff 算 
法 (由 TensorFlow 实 现 ) 只 需要 通 历 两 次 图 。 作 为 对 比 ， 正 同 模式 的 
autodiff 算 法 需要 为 每 个 变量 运行 一 次 《如果 我 们 需要 10 个 不 同 变 量 的 梯 
度 ， 那 么 就 需要 执行 10 次 ) 。 对 于 符号 微分 ， 它 会 建立 一 个 不 同 的 图 来 
计算 梯度 ， 所 以 根本 不 会 遍历 原来 的 图 〈 除 了 在 建立 新 的 梯度 图 时 ) 。 
一 个 高 度 优化 的 符号 微分 系统 可 能 只 需要 运行 一 次 新 的 梯度 图 来 计算 和 














ee 但 与 原始 图 相 比 ， 新 的 图 可 能 是 非常 复杂 和 低 效 


12. 见 https://github.com/ageron/handson-ml 的 Jupyter 笔 记 本 。 
第 10 章 : 人 工 神 经 网 络 简介 

1. 这 是 基于 原生 人 造 神经 元 来 计算 A@B (四 表示 计算 异 或 ) 的 神经 
网 络 ，A@B= (AAA 1B) V ( AAB) 。 当 然 还 有 其 他 做 法 ， 比 如 


使 用 A@B= (AVB) 八 ”1 (AAB) ,或 者 A@B= (AVB) 入 ( 
AVAB) ， 等 等 。 





E=CVD=A93B 


C=AAEB ;A=AND 7=NoT | 
D="AAB 'V=O0R 8z=XOR |; 


| 











2. 经 典 的 感知 器 只 有 在 数据 集 是 线性 可 分 的 情况 下 才 会 收敛 ， 并 且 
不 能 估计 分 类 的 概率 。 作 为 对 比 ， 巡 辑 回归 分 类 融 即 使 在 数据 集 不 是 线 
性 可 分 的 情况 下 也 可 以 很 好 地 收敛 ， 而 且 还 能 输出 分 类 的 概率 。 如 果 你 
将 感知 器 的 激活 函数 修改 为 逻辑 激活 函数 (或 者 如 果 有 多 个 神经 元 的 时 
候 ， 采 用 softmax 激 活 函 数 ) ， 然 后 训练 其 使 用 梯度 下 降 〈 或 者 使 成 本 
函数 最 小 化 的 一 些 其 他 优化 算法 ， 通 常 是 交叉 燃 法 ) ， 那 么 它 束 会 变 为 
一 个 逻辑 回归 分 类 器 了 。 

3. 逻 辑 激 活 函数 是 训练 第 一 个 MLP 的 关键 因素 ， 因 为 它 的 导数 总 是 


非 零 的 ， 所 以 梯度 下 降 总 是 可 以 持续 的 。 当 激活 功能 是 一 个 阶梯 函数 
时 ， 渐 变 下 降 就 不 能 再 持续 了 ， 因 为 这 时 候 根本 没有 和 斜率。 








4. 阶 梯 函 数 、 逻 辑 函数 、 双 曲 正切 、 线 性 整流 函数 ， 如 图 10-8 所 
示 。 有 关 其 他 示例 ， 请 参阅 第 11 章 ， 例 如 ELU 和 ReLU 的 其 他 变 体 。 


5. 考 虑 问题 中 描述 的 MLP: 假设 你 有 这 样 一 个 MLP， 其 输入 层 由 10 
个 透 传神 经 元 组 成 ， 然 后 是 一 个 隐藏 层 ， 有 50 个 人 造 神经 元 ， 最 后 是 一 
个 输出 层 ， 有 3 个 人 造 神 经 元 。 所 有 的 人 造 神经 元 都 使 用 ReLU 激 活 函 
数 。 











输入 窍 阵 X 的 形状 古 mx10， 其 中 m 代 表 训 练 批量 的 大 小 。 
隐藏 层 的 权 向 量 Wh 的 形状 为 10x50， 其 偏向 量 bh 的 长 度 为 50。 
输出 层 的 权 回 量 Ww。 的 形状 为 50x3， 其 俩 回 量 bo 的 长 度 为 3。 
-输出 和 矩阵 Y 的 形状 是 mx3。 


“Y= (XWh+bn) “Wo+b。。 注 意 ， 当 你 将 一 个 偏向 量 添加 到 一 个 算 
阵 时 ， 它 将 被 添加 到 矩阵 中 的 每 一 行 ， 这 就 是 所 谓 的 广播 。 


6. 要 将 电子 邮件 分 类 为 垃圾 邮件 和 正常 邮件 ， 你 只 需要 在 神经 网 络 
的 输出 层 中 使 用 一 个 神经 元 ， 例 如， 指出 电子 邮件 是 垃圾 邮件 的 概率 。 
估算 概率 时 ， 通 币 会 在 输出 层 使 用 逻辑 激活 函数 。 如 果 你 想 要 解雇 
MNIST 问 题 ， 则 需要 输出 层 中 有 10 个 神经 元 ， 并 且 必 须 用 可 以 处 理 多 个 
分 类 的 softmax 激 活 函数 答 换 馆 辑 函数 ， 为 每 个 分 类 输出 一 个 概率 。 如 
果 你 想 让 你 的 神经 网 络 像 第 2 章 那 样 预 测 房价 ， 那 么 你 需要 一 个 输出 神 
经 元 ， 而 在 输出 层 则 无 须 使 用 激活 函数 。 包 


7. 反 向 传播 是 一 种 用 于 训练 人 工 神 经 网 络 的 技术 。 它 首先 计算 关于 
每 个 模型 参数 〈 所 有 的 权重 和 偏差 ) 的 成 本 函数 的 梯度 ， 然 后 使 用 这 些 
梯度 执行 梯度 下 降 。 这 种 反 向 传播 步骤 通常 执行 数 千 次 或 数 百 万 次 ， 并 
需要 多 个 训练 批 次 ， 直 到 模型 参数 收敛 到 最 小 化 成 本 函数 的 值 为 止 。 为 
了 计算 梯度 ， 反 向 传播 使 用 反 向 模式 autodiff (尽管 在 反 向 传播 被 发 明 的 
时 候 还 不 叫 autodiff， 事 实 上 autodiff 的 概念 已 经 被 重新 发 明了 多 次 ) 。 
反 向 模式 的 autodiff 会 先 在 计算 图 上 正 向 执行 一 次 ， 计 算 当 前 训练 批 次 的 
每 个 节点 的 值 ， 然 后 反 向 执行 一 次 ， 一 次 性 计算 所 有 梯度 〈 详 见 附录 
D) 。 那 和 反问 传播 有 什么 区 别 昵 ? 反 向 传播 是 指使 用 多 个 反 向 传播 步 
又 来 训练 人 工 神 经 网 络 的 全 部 过 程 ， 每 个 步 又 计算 梯度 并 使 用 它们 执行 
梯度 下 降 过 程 。 相 反 ， 反 向 模式 autodiff 只 是 一 种 简单 的 计算 梯度 的 技 





术 ， 只 是 恰好 被 反 疝 传播 使 用 了 而 已 。 


8. 这 里 列 出 了 所 有 可 以 在 基本 MLP 中 调整 的 超 参数 : 隐藏 层 的 数 
量 ， 每 个 隐藏 层 中 神经 元 的 数量 ， 以 及 每 个 隐藏 层 和 输出 层 中 使 用 的 激 
活 函 数 。 包 一般 情况 下 ，ReLU 激 活 函 数 〈 或 其 中 的 一 个 变 体 ， 请 参阅 
第 11 章 ) 古 隐 藏 层 的 一 个 很 好 的 默认 值 。 对 于 输出 层 ， 通 党 需要 二 分 分 
类 的 逻辑 激活 函数 ， 多 类 分 类 的 softmax 激 活 函数 ， 在 做 回归 时 则 无 须 
任何 激活 函数 。 


如 果 MLP 对 训练 数据 有 过 度 拟 合 ， 可 以 尝试 减少 隐藏 层 的 数量 ， 并 
减少 每 个 隐藏 层 的 神经 元 数量 。 

9. 风 https://github.com/ageron/handson-ml 的 Jupyter 笔 记 本 8 
第 11 章 : 训练 深度 神经 网 络 


1. 不 ， 所 有 权重 需要 独立 处 理 ， 它 们 不 可 以 初始 化 为 统一 值 。 随 机 
取样 权重 一 个 重要 的 目的 是 破坏 对 称 性 : 如 果 所 有 的 权重 具有 相同 的 初 
始 值 ， 即 使 该 值 不 为 0， 对 称 性 也 无 法 被 破坏 〈 即 一 层 中 所 有 神经 元 都 
是 一 样 的 ) ， 并 且 反 辣 传 播 将 无 法 破坏 它 。 具 体 来 说 ， 这 就 意味 着 一 层 
中 所 有 神经 元 始终 保持 相同 的 权重 。 就 像 每 层 只 有 一 个 神经 元 ， 而 且 要 
慢 得 多 。 这 样 的 配置 是 无 法 收敛 到 一 个 好 的 解决 方案 的 。 


2. 当 然 可 以 设置 为 0。 有 些 人 喜欢 像 初 始 化 权重 一 样 处 理 侦 差 项 ， 
这 样 也 是 可 以 的 ， 没 有 太 大 的 区 别 。 


3.ELU 相 对 于 ReLU 的 几 个 优势 : 

: 它 可 以 使 用 负 值 ， 所 以 相 比 使 用 ReLU 激 活 方程 (从 不 输出 负 
值 ) ， 某 一 给 定 层 的 神经 元 输出 平均 值 理论 上 更 容易 接近 0。 这 样 有 助 
于 缓解 梯度 消失 问题 。 


它 总 是 有 一 个 非 零 的 导数 ， 可 以 避免 影响 ReLU 单 元 的 单元 消失 问 
































匮 。 





: 它 在 任何 地 方 都 是 平滑 的 ， 而 在 z=0 时 ，ReLU 的 梯度 突然 从 0 跳 至 
1。 这 个 突然 的 变化 会 引起 在 z=0 附 近 摆 动 ， 从 而 可 以 缓解 梯度 下 降 。 


4.ELU 激 活 函 数 是 一 个 不 错 的 默认 选择 。 如 果 对 神经 网 络 的 速度 要 
求 很 高 ， 可 以 用 leaky “ReLU 的 一 个 变种 《即使 用 默认 超 参 数值 的 leaky 
ReLU) 。 这 是 因为 ReLU 激 活 函 数 简 单方 便 ， 所 以 很 多 人 会 将 其 作为 首 
选 ， 即 使 输出 表现 会 被 ELU 和 leaky ”ReLU 超 过 。 但 是 ， 某 些 情况 下 ， 
ReLU 激 活 函数 的 精确 输出 能 力 是 有 用 的 〈 见 第 15 章 ) 。 如 果 你 需要 输 
出 一 个 介 于 -1 和 1 之 间 的 数 ，tanh 在 输出 层 会 比较 有 效 ， 但 是 现在 在 隐藏 
层 的 使 用 频 度 并 不 高 。 在 你 需要 评估 可 能 性 〈 比 如 二 进 制 分 类 ) 时 ， 逮 
辑 激 活 函 数 在 输出 层 比较 有 效 ， 但 是 同样 在 隐藏 层 中 很 少 使 用 〈 也 有 例 
外 ， 比 如 ， 变 分 自动 编码 器 的 编码 层 ， 见 第 15 章 ) 。 最 后 softmax 激 活 
函数 在 输出 层 输出 互相 排斥 类 的 概率 是 有 效 的 ， 但 是 除了 “或 者 曾经 ) 
隐藏 层 以 外 基本 不 使 用 。 


5. 如 果 使 用 MomentumOptimizer 时 ， 将 动量 超 参 数 设置 得 太 接 近 
1《〈 比 如 : 0.99999) ， 算 法 就 会 提速 很 高 ， 偏 问 全 局 最 小 值 ， 但 是 接着 
会 经 过 最 小 值 。 之 后 就 会 慢 慢 降 速 回 落 ， 再 加 速 ， 再 超 调 ， 循 环 往复 。 
这 种 方式 在 收敛 前 会 振荡 好 几 次 ， 所 以 总 体 来 说 ， 收 敛 速 度 会 比 用 小 动 


量 慢 。 


6. 一 种 实现 稀疏 模型 的 方法 〈 即 大 多 数 权重 等 于 0) 是 正常 训练 一 
个 模型 ， 然 后 将 小 权重 设置 为 0(。 为 了 更 稀疏 ， 可 以 在 训练 过 程 中 应 用 1 
正则 化 ， 这 样 可 以 促使 优化 器 更 加 稀疏 。 第 三 种 方式 是 使 用 TensorFlow 
的 FTRLOptimizer 类 将 1 正则 化 和 对 侦 平 均 相 结合 。 


7. 是 的 ，dropout 会 减 慢 训练 速度 ， 一 般 降 为 原 速 度 的 一 半 。 但 是 ， 
因为 只 是 在 训练 期 间 使 用 所 以 对 于 预测 没有 影响 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 


第 12 章 : 跨 设 备 和 服务 器 的 分 布 式 TensorFlow 


1. 当 TensorFlow 进 程 启动 时 ， 会 抓 取 所 有 可 见 的 GPU 设 备 上 的 所 有 
可 用 内 存 ， 所 以 如 果 在 启动 TensorFlow 程 序 时 得 到 一 个 
CUDA_ERROR_OUT_OF_MEMORY， 这 可 能 意味 着 其 他 正在 运行 的 进 
程 已 经 占用 至 少 一 个 可 见 的 GPU 设备 的 所 有 内 存 〈 最 有 可 能 是 另 一 个 
TensorFlow 进 程 》。 为 了 解决 这 个 问题 ， 一 个 简单 的 解决 方案 是 停止 其 
他 进程 ， 然 后 重 试 。 但 是 ， 如 果 你 需要 同时 运行 所 有 的 进程 ， 一 个 简单 
的 方法 是 通过 为 每 个 设备 适当 地 设置 CUDA_VISIBLE_DEVICES 环 境 变 























量 来 为 每 个 进程 分 配 不 同 的 设备 。 另 一 个 方法 是 通过 创建 一 个 
ConfigProto， 设 置 gpu_options.per_process_gpu_memory_fraction 为 它 应 
该 占用 的 总 内 存 的 比例 〈 例 如 0.4) ， 来 配置 TensorFlow 只 抓 取 GPU 内 存 
的 一 部 分 ， 而 不 抓 取 所 有 的 内 存 ， 并 在 打开 会 话 时 使 用 此 ConfigProto。 
最 后 一 个 方法 是 让 TensorFlow 只 在 需要 的 时 候 抓 取 内 存 ， 可 以 通过 设置 
gpu_options.allow_growth 为 True 来 实现 。 但 是 ， 最 后 一 个 方法 平时 并 不 
推荐 ， 因 为 TensorFlow 抓 取 的 内 存 并 不 释放 ， 而 且 很 难保 证 是 一 个 重复 
性 的 行为 (可 能 会 有 一 些 耽 争 条 件 ， 具 体 取 决 于 哪些 进程 先 开始 ， 训 练 
中 需要 多 少 内 存 ， 等 等 ) 。 


2. 通 过 固定 一 个 操作 在 一 个 设备 上 上， 其实 就 是 告诉 TensorFlow 你 硕 
望 这 个 操作 在 这 里 进行 。 但 是 ， 有 些 限 制 条 件 可 能 会 阻止 TensorFlow 啊 
应 你 的 请 求 。 举 个 例子 ， 可 能 是 没有 针对 该 特定 类 型 的 设备 的 实现 的 操 
作 ( 称 为 内 核 ) 。 在 这 种 情况 下 ，TensorFlow 默 认 会 引发 异常 ， 但 是 你 
可 以 将 其 配置 回 CPU 〈 这 称 为 软 配置 ) 。 另 一 个 例子 是 可 以 修改 变量 的 
操作 ， 这 个 操作 和 变量 需要 配置 在 一 起 。 所 以 固定 操作 和 放置 操作 之 间 
的 区 别 在 于 ， 固 定 是 你 告知 TensorFlow 〈“ 请 将 此 操作 放 在 GPU#L 
上 >”) ， 而 放置 是 TensorFlow 实 际 上 最 终 做 的 事情 〈“ 对 不 起 ， 退 回 到 
CPU”) 。 


3. 当 你 正在 运行 一 个 支持 GPU 的 TensorFlow 的 安装 过 程 ， 而 且 使 用 
的 是 默认 配置 ， 如 果 所 有 操作 有 一 个 GPU 内 核 〈 即 一 个 GPU 实现 ) ， 那 
么 ， 它 们 会 全 部 被 放置 在 第 一 个 GPU 上。 但 是 ， 如 果 一 个 或 多 个 操作 没 
有 GPU 内 核 ， 默 认 情 况 下 TensorFlow 会 抛 出 异常 。 如 果 你 设置 
TensorFlow 回 退 到 CPU 〈 软 配置 ) ， 那 么 所 有 操作 会 被 放置 在 除去 所 有 
9 ee 包括 这 些 操作 之 前 所 有 的 配置 〈( 见 之 前 
练习 和 答案) o 


4. 是 的 ， 如 果 你 固定 一 个 变量 到 "gpu: 0"， 它 可 以 被 /gpu: 1 上 放置 
的 操作 使 用 。TensorFlow 会 目 动 处 理 添加 适当 操作 以 路 设备 传输 变量 
值 。 对 于 路 服务 器 的 设备 也 是 一 样 〈“ 只 要 它们 还 是 统一 集群 的 一 部 


5. 是 的 ， 同 一 设备 上 的 两 个 操作 可 以 并 行 运 行 ， 只 要 没有 操作 需要 
依赖 男 一 个 操作 的 输出 ，TensorFlow 就 会 自动 处 理 并 行 的 操作 (在 不 同 
的 CPU 内 核 或 不 同 GPU 线程 中 ) 。 另 外 ， 你 可 以 在 并 行 的 线程 〈 或 进 
程 ) 中 局 动 多 个 会 话 ， 评 估 每 一 个 线程 的 操作 。 因 为 会 话 都 是 独立 的 ， 
所 以 TensorFlow 可 以 并 行 评 估 一 个 会 话 的 任何 操作 ， 以 及 其 他 会 话 的 任 























一 操作 。 


6. 如 果 你 想 推 迟 一 个 操作 X 直 到 其 他 一 些 操作 被 执行 之 后 再 执行 ， 
即使 这 些 操作 不 需要 计算 X， 那 么 你 就 需要 使 用 控制 依赖 。 控 制 依赖 在 
以 下 几 种 场合 比较 有 用 : 当 X 占 用 大 量 内 存 ， 并 且 你 只 是 在 计算 图 形 时 
才 需 要 它 的 时 候 ; 或 者 是 当 X 使 用 了 大 量 WO 例如 ， 它 需要 大 量 位 于 不 
同 设备 或 服务 器 的 变量 值 ) ， 但 是 并 不 需要 作为 其 他 IO 饥 钱 操作 同时 
运行 的 时 候 ， 可 以 用 它 避 免 带宽 饱和 。 

7. 你 很 幸运 ! 在 分 布 式 TensorFlow 中 ， 变 量 值 位 于 集群 管理 的 容器 
中 ， 所 以 即使 你 关闭 了 会 话 退 出 了 客户 并 程序 ， 模 型 参数 依然 会 保存 在 
集群 中 。 你 只 需 开 局 一 个 新 会 话 到 集群 保存 模型 即 可 《确保 不 调用 变量 
初始 值 或 恢复 之 前 的 模型 ， 因 为 这 样 会 影响 你 的 新 模型 ! ) 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 


第 13 章 : 卷 积 神经 网 络 


1. 对 于 图 形 分 类 ， 相 对 于 全 连接 DNN，CNN 的 主要 优点 有 以 下 几 个 














方面 


由 于 连续 层 只 是 部 分 连接 的 ， 并 且 高 度 重 复 使 用 其 权重 ，CNN 的 
参数 比 全 连接 的 DNN 少 ， 这 使 得 它 的 训练 速度 更 快 ， 减 小 了 过 度 拟 合 的 
风险 ， 并 且 需 要 更 少 的 训练 数据 。 


当 CNN 学 会 检查 东 个 特定 特征 的 方法 时 ， 它 可 以 在 图 片 的 任何 部 
分 检测 到 该 特征 。 相 反 ，DNN 学 习 到 茶 个 位 置 的 特征 时 ， 和 它 只 能 在 特定 
位 置 上 检测 到 该 特征 。 因 为 图 像 通知 具有 非常 复杂 的 特征 ， 所 以 在 图 像 
ee 

















最 后 ，DNN 没 有 关于 像素 是 如 何 组 织 的 先 验 知识 ; 它 不 知道 附近 
的 像 系 是 否 接 近 。CNN 的 架构 租 入 了 这 个 先 验 知识 。 低 层 通 常识 别 图 像 
小 区 域 的 特征 ， 同 时 高 层 将 低层 识别 的 特征 组 合 为 大 特征 。 这 在 大 多 数 
目 然 图 片 中 都 可 以 很 好 地 工作 ， 使 得 CNN 明 显 领先 于 DNN。 


2. 我 们 来 计算 一 个 CNN 有 多 少 参数 。 因 为 第 一 个 卷 积 层 有 3x3 的 内 





核 ， 并 且 输 入 有 3 个 通道 〈 红 、 绿 、 赣 ) ， 然 后 每 个 特征 图 具有 3x3x3 的 
权重 ， 加 上 偏差 系数 。 这 样 ， i 28 个 参数 。 因 为 第 一 个 卷 积 
层 有 100 个 特征 图 ， 所 以 它 总 共有 2800 个 参数 。 第 二 个 卷 积 层 有 3x3 的 内 
核 ， 其 输入 是 上 一 层 100 个 特征 图 的 集合 ， 所 以 每 个 特征 图 有 
3x3x100=900 的 权重 ， 加 上 偏差 系数 。 它 有 200 个 特征 图 ， 所 以 该 层 

共有 901x200=180200 个 参数 。 最 后 ， 第 三 个 卷 积 层 同 样 有 3x3 的 内 核 ， 
其 输入 是 上 一 层 200 个 特征 图 的 集合 ， “所 以 每 个 特征 图 有 3x200=1800 的 
权重 ， 加 上 偏差 系数 。 因 为 它 有 400 个 特征 图 ， 所 以 该 层 共有 
1801x400=720400 个 参数 。 该 CNN 总 共有 2800+180200+720400=903400 
个 参数 。 


现在 我 们 来 计算 一 下 该 神经 网 络 对 单个 实例 进行 预测 时 《〈 至 少 ) 需 
要 的 内 存 。 首 先 计算 一 下 每 层 特征 图 的 大 小 。 因 为 我 们 的 步 幅 为 2， 并 
用 SAME 填 充 ， 每 层 特征 图 的 水 平和 垂直 大 小 除 以 2〈 如 果 需 要 ， 向 上 
舍 入 ) ， 所 以 输入 通道 有 200x300 像 素 ， 第 一 层 特征 图 是 100x150， 第 二 
层 特 征 图 是 50x75， 第 三 层 特征 图 是 25x38。 因 为 32bits 是 4bytes， 并 且 第 
一 个 卷 积 层 有 100 个 特征 图 ， 所 以 第 一 层 占 用 4x100x150x100=600 万 
byte 〈 约 5.7MB，1MB=1024KB，1KB=1024byte) 。 第 二 层 大 概 占用 
4x50x75x200=300 万 byte 〈 约 2.9MB) 。 最 后 ， 第 三 层 大 约 占用 
4x25x38x400=1520000byte 〈 约 1.4MB ) 。 然 而 ， 一 旦 计算 完 一 层 ， 就 
可 以 释放 前 一 层 占 用 的 内 存 ， 所 以 如 果 所 有 事情 都 是 最 优 ， 只 需要 大 约 
6+9=1500 万 byte《〈 约 14.3MB ) 的 内 存 〈 当 第 二 层 计 算 完 ， 第 一 层 的 内 存 
还 没有 被 释放 ) 。 但 是 等 等 ， 我 们 还 需要 添加 CNN 参 数 所 占 的 内 存 。 前 
面 计算 过 它 有 903400 个 参数 ， 每 个 参数 使 用 4byte， 所 以 需要 添加 
3613600byte〈 约 3.4MB ) 。 至 少 所 需 的 内 存 总 共 是 18613600byte 〈 约 
17.8MB ) 。 


最 后 我 们 来 计算 一 下 当 训 练 一 个 mini-batch 为 50 张 图 像 的 CNN 时 需 
要 的 最 小 内 存 。 训 练 期 间 ，TensorFlow 使 用 反 向 传播 ， 它 需要 在 反 向 传 
播 开 始 前 保存 所 有 正 癌 传播 期 间 计 算 的 值 。 所 以 ， 我 们 必须 计算 一 个 实 
例 的 所 有 层 需要 的 总 内 存 ， 并 乘 以 50! 基于 这 一 点 ， 我 们 需要 计算 
megabyte 而 不 是 byte。 之 前 已 经 计算 过 ， 对 于 每 个 实例 ， 三 层 各 需要 
5.7MB、2.9MB 和 1.4MB 。 每 个 实例 共 10.0OMB 。 所 以 到 目前 为 止 ，50 个 
实例 共 需 500MB 内 存 。 加 上 输入 图 片 需要 的 50x4x200x300x3=3600 万 
byte〈 大 约 34.3MB ) 内存， 加 上 模型 参数 需要 的 3.4MB (之 前 计算 的 ) 
内 存 ， 加 上 梯度 需要 的 一 些 内 存 (我 们 将 其 忽略 ， 因 为 在 反 向 传播 期 
间 ， 其 内 存 会 因为 反 辣 传播 而 逐步 释放 ) 。 大 概 需 要 的 总 内 存 为 























500+34.3+3.4=537.7MB。 这 是 一 个 乐观 的 最 低 值 。 


3. 如 果 GPU 在 训练 CNN 期 间 内 存 溢出 ， 可 以 做 如 下 5 件 事 解决 这 个 
问题 〈 除 了 购买 有 更 多 内 存 的 GPU 外 ) : 


: 减 小 小 批 次 尺寸 。 

-在 一 层 或 多 层 中 使 用 较 大 的 步 幅 来 降低 维度 。 
-删除 一 层 或 多 层 。 

使 用 16 位 浮 点 数 来 代 蔡 32 位 浮 点 。 

-在 多 个 设备 上 分 配 CNN。 


4. 最 大 池 化 层 完 全 没有 参数 ， 而 卷 积 层 有 一 些 〈 参 见 之 前 的 问 





题 ) 





5. 局 部 啊 应 标准 化 层 使 得 神经 元 在 同一 位 置 强 烈 激 活 抑制 的 神经 
元 ， 但 是 在 相 邻 的 特征 图 中 ， 它 误 励 不 同 特征 图 个 性 化 并 推动 它们 分 
开 ， 迫 使 它们 探索 更 加 广泛 的 特征 。 它 通常 用 于 低层 ， 为 了 拥有 较 大 高 
层 特征 可 以 在 上 面 构建 的 低层 特征 池 。 


6. 相 比 于 LeNet-5，AlexNet 的 主要 创新 是 : (1) 它 更 大 、 更 深 ， 
(2) 它 在 彼此 之 上 添加 卷 积 层 ， 而 不 是 在 每 个 卷 积 层 的 顶部 添加 一 个 
池 化 层 。GoogLeNet 的 主要 创新 是 引入 初始 化 模块 ， 使 得 它 比 之 前 的 
CNN 框 架 网 络 层次 更 深 、 参 数 更 少 。 最 后 ，ResNet 的 主要 创新 是 引入 践 
过 连接 ， 使 得 它 可 以 在 超过 100 层 的 网 络 中 性 能 良好 。 可 以 说 ， 它 的 简 
单 和 一 致 性 也 是 一 种 创新 。 


练习 7 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 


第 14 章 : 循环 神经 网 络 
1. 这 里 有 一 些 RNN 的 应 用 : 


-序列 到 序列 RNN: 预测 天 气 〈 或 者 其 他 时 间 序 列 ) ， 机 器 翻译 
〈 使 用 编码 需 - 解 码 需 框 困 ) ， 视 频 字 幕 ， 语 音 到 文本 ， 音 乐 生 成 《或 

















其 他 序列 生成 )， 识 别 歌 曲 中 的 和 弦 。 


序列 到 向 量 RNN: 按照 音乐 题材 分 类 音乐 样本 ， 分 析 书 评 的 观 
点 ， 根 据 读 取 大 脑 植 入 物 预测 失语 病人 《〈collaborative filtering) 的 思 
维 ， 基 于 历史 记录 预测 用 户 想 看 的 电影 (这 是 协同 过 小 的 实现 方法 之 
Sg 


` 癌 量 到 序列 RNN: 图 像 字幕 ， 根 据 当 前 收藏 的 音乐 创建 歌 单 ， 根 
在 图 片 中 定位 行人 《例如 ， 上 自动 概 驶 汽车 摄像 头 
视频) o 


2. 通 常 来 说 ， 如 果 一 次 翻译 一 个 单词 ， 结 果 会 很 差 。 例 如 ， 法 语句 
子 “Je vous en prie” 意 思 是 “不 客气 >”。 但 是 ， 如 果 一 次 只 翻译 一 个 单词 ， 
会 得 到 “我 你 在 祈祷 >”。 奇 怪 吗 ?最 好 读 完 整 句 话 再 进行 翻译 。 一 个 普通 
的 序列 到 序列 RNN 会 在 读 完 第 一 个 单词 后 立即 开始 翻译 ， 而 编码 器 - 解 
个 器 RNN 会 先 读 完整 个 句子 ， 然 后 再 翻译 。 也 就 是 说 ， 一 个 普通 的 
RNN， 当 它 不 确定 下 一 步 该 说 什么 时 就 会 什么 也 不 输出 (就 像 人 类 翻译 
员 在 同 声 传译 时 做 的 一 样 ) 。 


3. 为 了 根据 视觉 内 容 分 类 视频 ， 一 个 可 能 的 框架 是 每 秒 取 一 帧 图 
像 ， 然 后 通过 卷 积 神经 网 络 运行 每 一 帧 ， 将 输出 的 CNN 传 入 一 个 序列 到 
问 量 RNN， 然 后 通过 softmax 层 运行 输出 ， 得 到 所 有 类 的 概率 。 如 果 你 
还 想 使 用 音频 进行 分 类 ， 可 以 把 每 秒 的 音频 转换 为 频谱 ， 之 后 将 这 些 频 
谱 传 入 一 个 CNN， 然 后 将 CNN 的 输出 传 给 RNN (连同 其 他 CNN 的 啊 应 
输出 ) 。 


4. 使 用 dynamic_ rnn 〈) 而 不 是 static_ rmn 〈) 来 构建 RNN 帝 来 许多 好 
处 : 























它 基于 while_ loop 〈) 操作 ， 可 以 在 反问 传播 期 间 将 GPU 内 存 交 互 
到 CPU 内 存 ， 从 而 避免 了 内 存 溢出 。 


它 更 加 易于 使 用 ， 因 为 其 采取 单 张 量 作为 输入 和 输出 (覆盖 所 有 
时 间 步 长 ) ， 而 不 是 一 个 张 量 列表 〈 每 个 时 间 步 长 一 个 ) 。 不 需要 入 
栈 、 出 酚 ， 或 转 置 。 


: 它 生 产 的 图 形 更 小 ， 更 容易 在 TensorBoard 中 可 视 化 。 


5. 为 了 处 理 可 变 长 度 的 输入 序列 ， 最 简单 的 方法 是 在 调用 

static_ mn 〈() 或 dynamic rnn 〈) 方法 时 传 入 sequence_length 参 数 。 男 一 
个 方法 是 填充 长 度 较 小 的 输入 《比如 ， 用 0 填充 ) 来 使 其 与 最 大 输入 长 
度 相 同 〈 这 可 能 比 第 一 种 方法 快 ， 因 为 所 有 输入 序列 具有 相同 的 长 
度 ) 。 为 了 处 理 可 变 长 度 的 输出 序列 ， 如 果 事 先知 道 每 个 输出 序列 的 长 
度 ， 就 可 以 使 用 Sequence_Jength 参 数 《〈 例 如 ， 序 列 到 序列 RNN 使 用 骏 力 
评分 标记 视频 中 的 每 一 帧 : 输出 序列 和 输入 序列 长 度 完全 一 致 ) 。 如 果 
事先 不 知道 输出 序列 的 长 度 ， 则 可 以 使 用 填充 方法 : 始终 输出 相同 大 小 
的 序列 ， 但 是 忽略 end-of-sequence 标 记 之 后 的 任何 输出 《在 计算 成 本 函 
数 时 忽略 它们 ) 。 


6. 为 了 在 多 个 GPU 和 直接 分 配 训练 并 执行 深度 RNN， 一 个 常用 的 简单 
技术 是 将 每 个 层 放 在 不 同 的 GPU 上 。 


练习 7 至 练习 9 的 解决 方案 ， 请 参见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 


第 15 章 : 自动 编码 器 

1. 以 下 是 自动 编码 器 一 些 主要 任务 : 

.特征 提取 

:无 监督 的 预 训练 

.降低 维度 

.生成 模型 

:异常 检测 (自动 编码 器 在 重建 异常 点 时 通常 表现 得 不 太 好 ) 

2. 如 果 想 训练 一 个 分 类 器 ， 有 大 量 未 标记 的 训练 数据 ， 仅 有 几 千 个 
已 标记 的 实例 。 那 么 首先 可 以 在 完整 的 数据 集 (已 标记 和 未 标记 〉 上 训 
练 一 个 深度 自动 编码 器 ， 然 后 重用 其 下 半 部 分 作为 分 类 器 〈 即 重用 上 半 
部 分 作为 编码 层 ) 并 使 用 已 标记 的 数据 训练 分 类 器 。 如 果 已 标记 的 数据 
集 比 较 小 ， 你 可 能 希望 在 训练 分 类 器 时 冻结 复 用 层 。 


3. 事 实 上 ， 能 够 完美 重建 其 输入 的 自动 编码 占 并 不 意味 看 它 是 一 个 
好 的 上 自动 编码 器 ; 也 许 它 仅仅 是 一 个 可 以 复制 输入 到 编码 层 ， 再 到 输出 























层 的 完备 的 自动 编码 器 。 事 实 上 ， 即 使 编码 层 包 含 单个 神经 元 ， 对 非常 
深 的 自动 编码 器 来 说 ， 它 才 可 能 学 习 将 每 个 训练 实例 映射 到 不 同 的 编码 
(比如 ， 第 一 个 实例 可 以 映射 到 0.001， 第 二 个 映射 到 0.002， 第 三 个 映 
射 到 0.003， 等 等 ) ， 它 可 以 “用 心 * 学 习 为 每 个 编码 重 构 正确 的 训练 。 它 
将 在 不 真正 学 习 数 据 中 任何 有 用 的 模式 的 情况 下 完美 地 重建 输入 。 在 实 
践 中 ， 这 样 的 映射 不 太 可 能 发 生 ， 但 是 它 说 明 一 个 事实 ， 完 美的 重建 并 
不 能 保证 自动 编码 器 学 习 到 有 用 的 东西 。 然 而 ， 如 果 产 生 非 常 差 的 重 

建 ， 它 几乎 必然 是 一 个 糟糕 的 自动 编码 器 。 为 了 评估 编码 器 的 性 能 ， 一 
种 方法 是 测量 重建 损失 (例如 ， 计 算 MSE， 用 输入 的 均 方 值 减 去 输 

入 ) 。 同 样 ， 重 建 损失 高 意味 着 这 是 一 个 不 好 的 编码 器 ， 但 是 重建 损失 
低 并 不 能 保证 这 是 一 个 好 的 自动 编码 器 。 你 应 该 根据 它 的 用 途 来 评估 自 
0 
类 器 的 性 能 。 


4. 不 完整 的 自动 编码 器 是 编码 层 比 输入 和 输出 层 小 的 自动 编码 器 。 
如 宁 比 其 大 ， 那 就 是 一 个 完整 的 自动 编码 右 。 一 个 过 度 不 完整 的 上 自动 编 
码 吉 的 主要 风险 是 : 不 能 重建 其 输入 。 完 整 的 目 动 编码 器 的 主要 风险 
是 : 它 可 能 只 是 将 输入 复制 到 输出 ， 不 学 习 任 何 有 用 特征 。 


5. 要 将 目 动 编码 器 的 权重 与 其 相应 的 解码 层 相关 联 ， 你 可 以 简单 地 
使 得 解码 权重 等 于 编码 权重 的 转 置 。 这 将 使 模型 参数 数量 减少 一 半 ， 通 
常 使 得 训练 在 数据 较 少 时 快速 收敛 ， 减 小 过 度 拟 合 的 风险 。 


6. 为 了 可 视 化 栈 式 上 自动 编码 器 低层 学 习 到 的 特征 ， 一 个 各 用 的 技术 
是 通过 将 每 个 权重 问 量 重建 为 输入 图 像 的 大 小 来 绘制 每 个 神经 元 的 权重 
(例如 ， 对 于 MNIST， 将 权重 向 量 形状 [784 重 建 为 [28，28])。 为 了 可 
人 
列 。 


7. 生 成 模式 是 一 种 可 以 随机 生成 类 似 于 训练 实例 的 输出 的 模型 。 例 
如 ， 一 且 在 MNIST 数 据 集 上 训练 成 功 ， 生 成 模型 就 可 以 用 于 随机 生成 通 
真 的 数字 图 像 。 输 出 分 布 大 致 和 训练 数据 类 似 。 例 如 ， 因 为 MNIST 包 含 
了 每 个 数字 的 多 个 图 像 ， 生 成 模型 可 以 输出 与 每 个 数字 大 致 数量 相同 的 
图 像 。 有 些 生成 模型 可 以 进行 参数 化 ， 例 如 ， 生 成 某 种 类 型 的 输出 。 生 
成 目 动 编码 器 的 一 个 例子 是 变 分 目 动 编码 器 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 
本 : https://github.com/ageron/handson-ml。 












































第 16 章 : 强化 学 习 


1. 强 化 学 习 是 机 器 学 习 的 一 个 领域 ， 旨 在 创建 在 一 个 环境 中 采取 行 
动 的 代理 ， 以 获得 最 大 回报 。RL 和 常规 的 有 监督 和 无 监督 学 习 有 很 大 
的 不 同 。 主 要 在 以 下 几 个 方面 : 


:有 监督 和 无 监督 学 习 的 目标 是 找到 数据 中 的 模式 。 强 化 学 习 的 目 
标 是 找到 好 的 集 略 。 


与 有 监督 学 习 不 同 ， 代 理 没有 明确 给 出 正确 答案 。 它 必须 经 过 反 
复试 验 来 学 习 。 


与 无 监督 学 习 不 同 ， 强 化 学 习 的 代理 有 一 种 通过 回报 的 监督 形 
ER 
败 。 


-强化 学 习 代理 需要 找到 探索 环境 、 寻 找 获 得 回报 的 新 途径 和 利用 
己 知 回报 来 源 之 间 的 平衡 。 相 反 ， 有 监督 和 无 监督 学 习 无 须 担 心 探索 ; 
它们 仅 处 理 提供 给 它们 的 训练 数据 。 


:有 监督 和 无 监督 学 习 的 训练 实例 通常 是 独立 的 (实际 上 ， 它 们 通 
常 是 无 厅 的 ) 。 在 强化 学 习 中 ， 连 续 观测 值 通常 不 是 独立 的 。 在 移动 之 
前 ， 代 理 可 能 在 环境 中 的 相同 区 域 停留 一 会 ， 所 以 连续 观测 值 将 是 相关 
0 


2. 
应 用 : 


个 性 化 音乐 


环境 是 用 户 的 私人 网 络 广播 。 代 理 是 决定 下 一 曲 播放 什么 的 软件 。 
它 可 能 的 行为 是 播放 目录 中 的 任何 歌曲 〈 必 须 尝试 选择 用 户 喜 欢 的 歌 
曲 ) ， 或 者 播放 广告 《必须 选择 用 户 感 兴趣 的 广告 ) 。 每 次 当 用 户 收 听 
歌曲 时 ， 它 会 获得 一 个 小 回报 ， 每 次 当 用 户 收 听 广 告 时 获得 一 个 大 回 
报 。 当 用 户 跳 过 歌曲 或 广告 时 ， 获 得 负 回报 ， 当 用 户 直 接 退 出 时 ， 获 得 
一 个 非常 大 的 负 回 报 。 
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党 


了 第 16 章 介绍 的 几 个 应 用 之 外 ， 下 面 还 有 几 个 可 能 的 强化 学 习 





营销 
环境 是 你 们 公司 的 市 场 部 。 代 理 是 给 定 客户 的 简历 和 购买 历史 ， 决 
定 活动 邮件 应 该 发 给 哪些 客户 的 软件 〈 对 于 每 个 客户 ， 可 选 的 行为 有 两 
个 ;发送 或 不 发 送 ) 。 甚 负 回报 是 活动 邮件 的 成 本 ， 正 回报 是 此 活动 预 
计 带 来 的 收入 。 
产品 交付 


让 代理 控制 一 队 送 货 卡 车 ， 决 定 应 该 从 仓库 拿 什 么 ， 送 去 哪里 ， 在 
哪里 下 车 ， 等 等 。 其 正 回报 是 每 个 产品 锌 及 时 交付 ， 负 回报 是 延迟 区 
唤 。 








3. 评 估 行 为 的 值 时 ， 强 化 学 习 算 法 通常 会 累加 该 行为 导致 的 所 有 回 
报 ， 给 即时 回报 分 配 较 多 的 权重 ， 延 迟 回报 分 配 较 少 的 权重 〈 考 虑 到 行 
为 对 近期 的 影响 比 远 期 大 ) 。 为 了 对 此 建 模 ， 通 常 为 每 个 时 间 和 迭代 应 用 
一 个 折扣 率 。 人 例如， 折扣 率 为 0.9， 当 估计 行为 的 值 时 ， 两 个 时 间 步 长 
后 回报 为 100 仅 被 计算 为 0.92x100=81。 可 以 将 折扣 率 想 象 为 衡量 未 来 值 
相对 于 现在 值 的 标杆 : 如 果 它 趋 近 于 1， 那 么 未 来 值 和 现在 值 差不多 。 
如 果 它 趋 近 于 0， 那 么 只 有 即时 回报 是 最 重要 的 。 当 然 ， 这 会 对 最 佳 策 
略 产生 巨大 影响 : 如果 看 中 未 来 价值 ， 为 了 得 到 最 终 回报 ， 你 可 能 愿意 
忍受 很 多 现在 的 痛 杏 ， 如 果 不 看 中 未 来 价值 ， 你 可 能 仅仅 愿意 获得 你 能 
找到 的 任何 即时 回报 ， 而 不 关注 未 来 。 


4. 为 了 测量 强化 学 习 代 理 的 性 能 ， 可 以 简单 地 累加 它 获得 的 回报 。 
你 可 以 在 模拟 环境 中 多 次 运行 ， 并 查看 得 到 的 平均 回报 (同时 ， 看 一 下 
最 小 、 最 大 、 标 准 偏差 ， 等 等 )。 


5. 信 用 分 配 问 题 是 ， 当 一 个 强化 学 习 代理 获得 一 个 回报 时 ， 它 无 法 
直接 知道 之 前 的 哪个 行为 页 献 了 这 些 回 报 。 该 问题 通 第 太 生 在 行为 和 最 
终 回 报 有 很 大 延 人 运 时 例如，Atari 的 乒乓 球 游戏 ， 代 理 击 球 和 赢得 比赛 
之 间 可 能 有 几 十 个 时 间 步 长 ) 。 绥 解 该 问题 的 方法 之 一 是 ， 如 果 可 能 的 
话 ， 为 代理 设置 短期 回报 。 这 通常 需要 关于 任务 的 先 验 知识 。 例 如 ， 如 
朱 和 希望 构建 一 个 学 习 下 国际 象棋 的 代理 ， 那 么 我 们 应 该 在 它 每 次 吃 了 对 
手 的 棋子 时 就 给 予 回报 ， 而 不 是 最 终局 得 比赛 时 才 给 予 。 


6. 代 理 通 冲 会 在 环境 的 同一 个 区 域 里 停留 一 段 时 间 ， 所 以 这 段 时 间 
的 所 有 经 历 部 是 相似 的 。 这 会 给 学 习 算法 引入 一 些 偏差 。 它 可 能 会 调整 












































环境 中 该 区 域 的 策略 ， 一 旦 离开 该 区 域 ， 性 能 就 会 变 差 。 为 了 解决 这 个 
问题 ， 可 以 使 用 重播 内 存 ， 代 理 将 基于 一 些 过 去 的 (最 近 的 和 不 那么 近 
的 ) 经 验 进行 学 习 ， 而 不 是 仅仅 使 用 即时 经 验 〈 这 也 许 就 是 我 们 晚上 做 
梦 的 原因 : 重 现 我 们 白天 的 经 验 并 更 好 地 从 中 学 习 ? ) 。 


7.off-policy ”RE 算法 学 习 最 佳 策略 的 值 〈 即 ， 如 果 代 理 行为 最 佳 ， 
每 个 状态 可 以 预期 的 所 有 折扣 后 回报 之 和 ) ， 而 不 管 代理 实际 如 何 行 
动 。Q 学 习 是 该 算法 的 一 个 例子 。 相 反 地 ，on-policy 算 法 学 习 代 理 实 际 
执行 的 策略 获得 的 值 ， 包 括 探索 和 开发 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 
: https://github.com/ageron/handson-ml。 


本 
D 如 宋 在 曲线 上 任意 两 点 之 间 画 一 条 连接 线 ， 该 线 永 远 不 会 军 过 曲 
线 。 


网 此 外 ， 标 准 方 程 需要 对 矩阵 求 送 ， 但 是 矩阵 并 不 总 是 可 逆 的 。 相 
， 岭 回归 和 矩阵 永远 是 可 逆 的 。 

当 预 测 值 可 能 在 多 个 数量 级 上 变化 时 ， 则 可 能 需要 直接 预测 目标 值 

的 对 数 而 不 是 目标 值 本 身 。 简 单 地 计算 神经 网 络 输出 的 指数 可 以 得 到 估 
算 值 ( 自 exp (ogv) =v) 。 
[4] 在 第 11 章 中 ， 我 们 讨论 了 引入 额外 超 参 数 的 许多 技术 : 权重 初始 化 
的 类 型 ， 激 活 函 数 超 参 数 〈 例 如 leaky ReLU 中 的 泄漏 量 ) ， 梯 度 剪裁 国 
值 ， 优化 器 的 类 型 及 其 超 参 数 〈( 例 如 ，MomentumOptimizer) ， 每 层 的 
正则 化 类 型 ， 正 则 化 超 参数 (例如 ，dropout 的 丢失 率 ) 等 。 
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附录 B 机 器 学 习 项 目 清 单 
该 清单 可 以 帮助 你 完成 你 的 机 器 学 习 项 目 。 主 要 有 8 步 : 
1. 架 构 问 题 ， 关 注 蓝 图 。 
2. 获 取 数 据 。 
3. 研 究 数据 以 获取 灵感 。 
4. 准 备 数据 以 更 好 地 将 低层 模型 暴露 给 机 器 学 习 算 法 。 
5. 研 究 各 种 不 同 的 模型 ， 并 列 出 最 好 的 模型 。 
6. 微 调 模型 ， 并 将 其 组 合 为 更 好 的 解决 方案 。 
7. 提 出 解决 方案 。 
8. 局 动 、 监 视 、 维 护 系 统 。 
当然 ， 为 了 满足 需求 ， 你 可 以 随时 调整 这 个 清单 。 


染 构 问题 ， 关 注 监 图 


1. 用 商业 术语 定义 目标 。 

2. 方 案 如 何 使 用 ? 

3. 目 前 的 解决 方案 /办 法 是 什么 ? 

4. 应 该 如 何 架 构 问 题 〈《 有 监督 /无 监督 ， 在 线 / 离 线 ， 等 等 
5. 如 何 测量 性 能 ? 

6. 性 能 指标 是 否 与 业务 目标 一 致 ? 

7. 每 个 业务 目标 需要 的 最 低 性 能 是 什么 ? 





8. 有 没有 一 些 相似 的 问题 ? 能 重用 一 些 经 验 和 工具 吗 ? 
9. 有 没有 相关 有 经 验 的 人 ? 
10. 如 何 手动 解决 此 问题 ? 
11. 列 出 目前 为 止 你 〈 或 其 他 人 ) 的 假设 。 
12. 如 果 可 能 的 话 ， 验 证 假设 。 
获取 数据 
注意 : 尽 可 能 的 自动 化 ， 以 便 获 取 最 新 数据 。 
1. 列 出 需要 的 数据 及 其 体 量 。 
2. 碍 找 并 记录 获取 数据 的 途径 。 
3. 检 查 需 要 的 空间 。 
4. 检 查 法 律 义务 ， 必 要 时 获取 授权 。 
5. 获 取 访 问 权 限 。 
6. 创 建 工作 空间 《确保 具有 足够 的 存储 空间 ) 。 
7. 获 取 数 据 。 
8. 将 数据 转换 为 可 操作 的 格式 (不 改变 数据 本 里 ) 。 
9. 确 保 删 除 或 保护 敏感 信息 例如， 匿名 〉。 
10. 检 查 数 据 的 类 型 和 大 小 (时 间 序 列 、 样 本 、 地 点 等 )。 


11. 采 样 一 个 测试 数据 集 ， 放 在 一 边 ， 永 远 不 要 用 它 (没有 数据 突 
视 ! ) 。 


研究 数据 














注意 : 试 厦 从 这 些 步 骤 的 领域 专家 那里 获取 灵感 。 


0 
A 


2. 创 建 一 个 Jupyter 笔 记 本 来 记录 数据 研究 。 
3. 研 究 每 个 属性 及 其 特征 : 


名字。 





类 型 (分 类 、 整 型 / 浮 点 型 、 有 界 / 无 界 、 广 本、 结构 等 )。 
-缺失 值 的 百分比 。 

噪音 和 品 首 类 型 随机、 异常 、 舍 入 误差 等 )。 

“可 能 有 用 的 任务 ? 


.分布 类 型 〈 高 斯 、 统 一 、 对 数 等 ) 。 





4. 对 于 有 监督 的 学 习 任务 ， 确 认 目 标 属 性 。 


5. 可 视 化 数据 。 

6. 研 究 属 性 之 间 的 相关 性 。 
7. 研 究 如 何 手动 解决 问题 。 
8. 确 定 希望 使 用 转换 。 





9. 确 定 可 能 有 用 的 额外 数据 《〈《 回 到 之 前 的 “获取 数据 ?部 分 ) 。 
10. 记 录 学 习 到 的 东西 。 
准备 数据 


YY 一 
二 古 : 


-在 数据 的 副本 上 工作 保持 原始 数据 集 不 变 ) 。 
“编写 适用 于 所 有 数据 转换 的 函数 ， 原 因 有 五 个 : 
:可 以 很 容易 地 准备 下 一 次 得 到 新 数据 时 的 数据 。 
` 可 以 在 未 来 的 项 目 中 使 用 这 些 转换 。 

清理 和 准备 测试 数据 集 。 

一 旦 解决 方案 失效 ， 用 来 清理 和 准备 新 数据 实例 。 
可 以 轻松 地 将 你 的 准备 选择 作为 超 参 数 。 

1. 数 据 清 理 : 

-修复 或 删除 异 前 值 〈 可 选 〉。 


填充 缺失 值 ( 例 如 ， 使 用 零 、 平 均 数 、 中 位 数 等 ) 或 删除 该 行 
(或 列 ) 。 


2. 特 征 选择 〈 可 选 ) : 
-删除 不 能 为 任务 提供 任何 有 用 信息 的 属性 。 
3. 在 适当 情况 下 ， 处 理 特征 : 
:离散 连续 特征 。 
分解 特征 〈 如 ， 分 类 、 日 期 /时 间 等 ) 。 
:添加 期 望 的 特征 转换 (如 ，log (x) 、sqrt (x) 、x? 等 ) 。 
聚合 特征 称 为 期 望 的 新 特征 。 
列 出 期 望 的 模型 


Ni 
壮 尽 : 





如果 数 据 很 大 ， 可 能 需要 采样 为 较 小 的 训练 集 ， 以 便于 在 合理 的 
时 间 内 训练 不 同 的 模型 〈 注 意 ， 这 会 对 诸如 大 型 神经 集 或 随机 森林 等 复 
杂 模 型 造成 不 利 影响 ) 。 

再 次 ， 尽 可 能 地 目 动 化 这 些 步 又 。 


1. 使 用 标准 参数 ， 从 不 同类 别 〔 例 如 ， 线 性 、 村 系 贝 叶 斯 、SVM、 
随机 森林 、 神 经 网 络 等 ) 中 训练 需求 快速 的 不 成 熟 的 模型 。 


2. 测 量 并 比较 它们 的 性 能 。 


-对 于 每 个 模型 ， 使 用 N 倍 交叉 验证 并 计算 N 次 折 有 登 的 性 能 测试 的 均 
值 和 标准 差 。 


3. 分 析 每 个 算法 最 重要 的 变量 。 
4. 分 析 模 型 产生 的 错误 类 型 。 
“人 类 用 什么 样 的 数据 避免 这 些 错误 ? 
5. 快 速 进行 特征 选择 和 处 理 。 
6. 对 前 面 五 步 进行 一 两 次 快速 述 代 。 


, 7- 列 出 前 三 到 五 个 最 有 种 望 的 模型 ， 倾 向 于 选择 有 个 同 错误 类 型 的 
借 型 。 


微调 系统 
注意 : 
你 将 希望 为 这 一 步 使 用 尽 可 能 多 的 数据 ， 特 别 是 在 微调 结束 时 。 
永远 尽 可 能 地 目 动 化 。 
1. 使 用 交叉 验证 微调 超 参数 。 


把 数据 转换 选择 当 作 超 参 数 ， 尤 其 是 不 确定 时 例如 ， 应 该 用 零 
或 者 平均 值 填充 缺失 值 吗 ? 或 者 直接 删除 它 ? ) 。 














除非 需要 研究 的 超 参数 值 很 少 ， 人 否则 更 喜欢 在 网 格 搜索 上 随机 搜 
索 。 如 果 训 练 很 长 ， 你 可 能 更 喜欢 贝 叶 斯 优化 方法 〈 例 如 ， 如 Jasper 
Snoek、Hugo Larochelle 和 Ryan Adams 所 述 ， 使 用 高 斯 过 程 进行 先 验 


(https://goo.g/PEFf{Gr) ) 。 
2. 尝 试 组 合 方法 。 组 合 多 个 好 模型 往往 比 单独 运行 效果 好 。 
| 3 一旦 你 对 最 终 模型 有 信心 ， 在 测试 集 上 测量 它 的 性 能 以 估计 泛 化 
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从、 量 汉化 剖 关 后 ， 不 要 油 整 模型 ， 只 需要 开始 过 度 拟 合 测试 


多 


展示 解决 方案 

1. 文 档 化 你 所 做 的 工作 。 

2. 创 建 完美 的 演示 。 

-首先 确保 突出 监 图 。 

3. 解 释 为 什么 你 的 解决 方案 达到 了 业务 目标 。 

4. 不 要 忘记 展示 你 发 现 的 一 些 有 趣 的 地 方 。 

-描述 什么 可 以 工作 ， 什 么 不 行 。 

列 出 你 的 假设 和 系统 的 局 限 。 

5. 确 保 你 的 关键 友 现 被 完美 展示 或 易于 记忆 的 陈述 。 
局 动 
1. 准 备 好 生产 环境 的 解决 方案 (插入 生产 数据 输入 ， 写 单元 测试 














于 


2. 编 写 监 控 代 码 ， 定 期 检查 系统 的 性 能 ， 出 问题 时 及 时 报警 。 


同样 需要 考虑 缓慢 退化 : 随 着 数据 的 增加 ， 模 型 往往 会 < 腐烂 ”。 
测量 性 能 可 能 需要 人 工 流 水 线 〈 例 如 ， 众 包 服 务 ) 。 


:同时 监控 输入 质量 〈 例 如 ， 发 送 随机 值 的 故障 传感器 ， 或 其 他 团 
队 的 输出 过 时 ) 。 这 对 在 线 学 习 系统 尤为 重要 。 


3. 定 期 对 新 数据 重新 建 模 《〈 尽 可 能 上 自动 化 ) 。 








[1| “Practical Bayesian Optimization of Machine Learning Algorithms”， 
J.Snoek、H.Larochelle 和 R.Adams (2012) 。 


附录 C ”SVM 对 偶 问 题 


为 了 理解 二 元 性 ， 需 要 学 习 拉 格 表 日 乘法 。 总 体 思 路 是 通过 将 约束 
移动 到 目标 函数 中 ， 将 约束 优化 目标 转换 为 无 约束 优化 目标 。 我 们 来 看 
一 个 简单 的 例子 。 假 设 你 想 找 到 函数 f(x，y) =x2+2y 受 等 式 3x+2y+1=0 
约束 时 ， 取 得 最 小 值 时 x 和 y 的 值 。 使 用 拉 格 朗 日 乘法 ， 我 们 首先 定义 拉 
格 朗 日 函数 : g (x，y，a) =f (x,，y) -a (3x+2y+1) 。 原 始 目 标 减 去 
每 个 约束 (该 例子 中 只 有 一 个 ) 乘 以 一 个 被 称 为 拉 格 明日 乘 子 的 新 变 
量 。 


约瑟夫 路易斯 : 拉 格 朗 日 〈Joseph-Louis Lagrange) 证 明 ， 如 果 
(x, 3) 是 约束 优化 问题 的 一 个 解 ， 那 么 肯定 存在 一 个 a， 使 得 (X,》, 0) 
是 一 个 拉 格 朗 日 稳定 点 (稳定 点 是 所 有 偏 导 都 等 于 零 的 点 ) 。 换 人 句 话 
说 ， 我 们 可 以 计算 g(x，y，a) 对 于 x、y 和 a 的 偏 导 ; 我 们 可 以 找到 使 
这 些 偏 导 为 零 的 取 值 ， 并 且 约 束 优化 问题 (如 果 存 在 的 话 〉 的 解 必须 在 
这 些 平稳 点 之 间 。 
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| x) = 27 - 3a 
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在 这 个 例子 中 ， 俩 导数 是 : “ 





当 所 有 偏 导 数 都 为 0 时 ， 我 们 发 现 * 30=2-20=-3x-2y-1=0, 
从 中 可 以 很 容易 得 出 ”2，”” 了 和 0-1。 这 是 唯一 的 平衡 点 ， 由 于 
它 满足 约束 条 件 ， 所 以 它 肯定 是 约束 优化 问题 的 解 。 


然而 ， 这 个 方法 只 应 用 于 等 式 约 束 。 科 运 的 是 ， 在 一 些 正则 条 件 下 
(SVM 目 标 所 推 党 ) ， 同 样 可 以 将 这 种 方法 推广 到 不 等 式 约 束 《〈 例 如 ， 
3x+2y+1>0) 。 公 式 C-1 给 出 了 拉 格 朗 日 的 硬 边缘 问题 ， 其 中 % “i? 变量 
被 称 为 Karush-Kuhn-Tucker (KKT) 乘 子 ， 它 们 必须 大 于 或 者 等 于 零 。 


公式 C-1: 广义 拉 格 明日 硬 边 界 问 题 





ra = Ww Pa (Wea +) -1) 
i=|] 


其 a" 20 (j=1,,wm) 


与 使 用 拉 格 半日 乘法 一 样 ， 可 以 定位 侦 导 并 定位 稳定 点 。 如 条 有 解 
决 方案 ， 它 肯定 是 满足 KKT 条 件 的 平衡 点 (Ww,?,0); 








:满足 问题 约束 : 1 ((w) ”x +b) 宇 1(i= 1,2,…,m), 


.验证 十" 区 和 全 = 工区) 


:要么 & =0， 要 么 第 i 个 约束 必须 是 一 个 主动 约束 ， 这 意味 着 它 必 
须 等 于 : ! ((Ww) .x”+2) = 1。 这 种 情况 被 称 为 互补 松弛 条 件 
(complementary slackness condition) 。 意 味 着 a =0 或 第 i 个 实例 在 边 
界 上 《〈 它 是 一 个 文 持 向 量 ) 。 


注意 KKT 条 件 是 稳定 点 称 为 约束 优化 解 的 必要 条 件 。 在 某 些 情况 
下 ， 它 们 也 是 充分 条 件 。 幸 运 的 是 ，SVM 优 化 问题 正好 符合 这 些 条 件 ， 
所 以 任何 满足 KKT 条 件 的 稳定 点 都 可 以 保证 是 约束 优化 问题 的 解 。 
可 以 用 公式 C-2 计 算 广义 拉 格 明日 对 应 w 和 b 的 俩 导 。 


公式 C-2: 厂 义 拉 格 朗 日 的 偏 导 








2 本 wa 
EW,b,a) - bE | 


当 这 些 偏 导 等 于 0 时 ， 可 以 得 到 公式 C-3。 


公式 C-3: 稳定 点 属性 


i DD 
r=l 
y a = 0 
Ww | 


如 果 将 这 些 结果 带 入 广义 拉 格 朗 日 的 定义 中 ， 有 些 项 会 消失 ， 得 到 
Cd 


公式 C-4: SVM 问题 的 对 偶 形 式 


其 中 > (i = 1 


现在 的 目标 是 找到 使 函数 取 值 最 小 的 向 量 2， 对 所 有 实例 &>0。 该 
约束 问题 是 我 们 所 寻找 的 对 偶 问 题 。 
一旦 找到 最 优 解 &， 就 可 以 使 用 公式 C-3 的 第 一 行 来 计算 只 。 要 计算 
bp， 可 以 使 用 支持 向 量 验证 : (w * xX”+5) = 1 的 事实 ， 如 果 第 k 个 实 
例 是 一 个 支持 向 量 ( 如 oy>0) ， 就 可 以 用 它 来 计算 = 1 -1 (wx) 
。 然 而 ， 通 常 优先 使 用 所 有 支持 向 量 的 平均 值得 到 更 稳定 和 更 精准 的 
值 ， 如 公式 C-5 所 示 。 


公式 C-5: 使 用 对 偶 形 式 的 偏差 估计 


wg | mm 
b = 一 [11- I (Ww x | 
Nn 


附录 D 目 动 做 分 


本 附录 介绍 了 TensorFlow 的 自动 微分 特性 如 何 工作 ， 以 及 与 其 他 解 
决 方案 的 比较 。 

z 杂 并 
假设 定义 了 函数 人 xy) = *Y +yY +2， 并 需要 它 的 偏 导 ar 和 ay， 
通常 执行 梯度 下 降 〈 或 其 他 优化 算法 ) 。 你 的 主要 选择 有 手动 微分 、 符 
号 微分 、 数 值 微分 、 正 序 模式 自动 微分 autodiff) 和 反 序 模式 自动 微 
分 。TensorFlow 实 现 了 最 后 一 个 选项 。 我 们 来 逐一 看 看 这 些 选 项 。 

手动 微分 


第 一 种 方式 是 拿 出 纸 和 笔 ， 用 微 积分 知识 手动 推导 出 偏 导 。 对 刚刚 
定义 的 方程 f(x，y〉， 推 出 偏 导 很 容易 。 需 要 使 用 以 下 五 个 规则 : 


常数 的 导数 是 0。 

Ax 的 导数 是 (A 是 常数 ) 。 

X* 的 导数 是 MXN1， 所 以 x 的 导数 是 2x。 
函数 和 的 导数 是 这 些 函 数 分 别 的 导数 的 和 。 
函数 的 和 倍 的 导数 是 函数 导数 的 和 倍 。 
根据 上 述 规则 ， 可 以 得 出 等 式 D-1: 

等 式 D-1: f (x，y) 的 偏 导 
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该 方法 对 于 复杂 函数 就 会 变 得 特别 烦琐 ， 且 容易 出 错 。 好 消息 是 ， 
我 们 刚刚 做 的 求 偏 寻 的 过 程 可 以 通过 名 为 符号 微分 的 方式 自动 化 。 





符号 微分 


图 D-1 展 示 了 符 写 微分 如 何在 类 似 方程 g(x，y) =5+Xy 上 工作 。 该 
方程 展示 在 图 D-1 的 左 侧 ， 通 过 符 写 微分 后 ， 得 到 了 图 D-1 右 侧 所 示 的 偏 


导 WW WX%*TYX1) 7 (可 以 使 用 类 似 方法 求 得 对 于 y 的 偏 导 )。 














中 l 十 ) 
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g(Xy) = 5+xy oglox = 0+(0x+y,1)=y 


图 D-1: 符号 微分 








算法 首先 计算 叶子 节点 的 偏 导 。 常 数 节 点 (5)〉 返回 0， 因 为 单数 的 
OX 
y 、 Ley 业 » iit ] = 三 \ Au 有 » 
偏 导 是 0。 变 量 x 返 回 常 数 1， 因 为 和 ” ， 同 时 变量 y 返 回 常 量 0， 因 为 
Oy 


ar =“”( 如 果 计算 对 于 y 的 偏 导 ， 结 果 与 此 相反 ) 。 
现在 我 们 需要 做 的 是 把 函数 g 中 的 乘法 节点 移动 的 图 上 。 微 积分 知 
人 


gd(u Xv) ov "a 2 > 
识 告诉 我 们 ， 两 个 函数 u 和 v 的 乘积 的 偏 导 是 :和 训 ” 
。 因 此 我 们 构建 出 图 右 侧 的 大 部 分 内 容 ， 代 表 0xxtyx1。 


最 后 ， 考 虑 函数 g 中 的 加 法 节点 。 如 前 所 述 ， 几 个 函数 之 和 的 偏 导 
是 它们 各 自 偏 导 的 和 。 所 以 ， 我 们 只 需要 创建 一 个 加 法 节点 ， 并 用 它 来 
连接 之 前 得 到 的 计算 结果 。 得 到 该 函数 的 正确 偏 导 : 


Og 


Ow 和 1 上) 
OX 


























然而 ， 该 过 程 可 以 被 简化 (很 多 ) 。 可 以 添加 一 些 修 改 来 简化 不 必 
dc i 
要 的 操作 ， 得 到 只 有 一 个 节点 的 简单 图 纹 
在 这 种 情况 下 ， 简 化 非常 容易 。 但 是 对 于 更 复杂 的 函数 ， 符 号 微分 


会 产生 巨大 的 图 ， 可 能 会 很 难 简 化 并 且 影 响 性 能 。 最 重要 的 是 ， 符 号 微 
分 不 能 处 理 用 任意 代码 定义 的 函数 ， 例 如 第 9 章 讨 论 的 函数 : 








def my_func(a, b): 
z=0 
for i in range(100): 
过 


=a* np.cos(z + i) +z * np.sin(b - i) 
return z 


数字 微分 

最 简单 的 方法 是 用 数字 计算 偏 导 的 近似 值 。 回 想 一 下 ， 函 数 上 
h(x) 的 导数 h' (Cxo) 是 函数 在 点 x0 处 的 斜率 ， 或 者 更 准确 地 表示 为 方 
程 D-2。 


方程 D-2: 函数 h(x) 在 xo 的 导数 


= 

in simi—————— sm— 
0 6 ( 

所 以 如 果 想 计算 函数 f(x，y) 关于 x 在 x=3，y=4 处 的 偏 导 ， 我 们 可 


以 简单 地 计算 f (3+€，4) -f (3，4) ， 并 将 结果 除 以 E，€ 是 一 个 非 
常 小 的 值 。 如 下 代码 表示 了 上 述 过 程 : 








def f(x, y): 
return x**2*y + y + 2 


def derivative(f, x, y, x_eps, y_eps): 
return (f(x + x_eps, y + y_eps) - f(x, y)) / (x_eps + y_eps) 


df_dx = derivative(f, 3, 4, 0.00001, 0) 
df_dy = derivative(f, 3, 4, 0, 0.00001) 





不 笠 的 是 ， 结 果 并 不 十 分 准确 〈 对 于 复杂 函 数 ， 情 况 更 糟糕 ) 。 正 
确 的 结果 分 别 是 24 和 10， 但 得 到 的 结果 却 是 : 





>>> print(df_dx) 
24.000039999805264 
>>> print(df_dy) 
10.000000000331966 








注意 ， 为 了 计算 两 个 偏 导 ， 至 少 需要 调用 函数 f() 三 次 (代码 中 
调用 了 四 次 ， 但 是 可 以 优化 ) 。 如 果 它 有 1000 个 参数 ， 则 至 少 调用 1001 
次 。 当 处 理 大 型 神经 网 络 时 ， 这 会 使 得 数字 微分 的 效率 过 低 。 

然而 ， 数 字 微 分 非常 容易 实现 ， 它 是 检查 其 他 方法 是 否 正确 实施 的 
好 工具 。 例 如 ， 如 果 它 的 计算 结果 与 你 手动 推导 的 不 同 ， 那 么 你 的 计算 
肯定 有 问题 。 

正 序 模式 自动 微分 


正 序 模式 自动 微分 既 不 是 数字 微分 也 不 是 符号 人 微分， 但 是 某 种 程度 
上 来 讲 ， 是 它们 “爱情 的 结晶 "。 它 依赖 于 对 偶数 ， 其 形式 是 afb 上 的 数 
字 ， 其 中 a 和 b 是 实数 ，s 是 使 得 E =0〈 但 Cz0) 的 无 限 小 数 。 你 可 以 把 








对 偶数 42+24€ 看 作 是 类 似 于 中 间 有 无 限 个 0 的 小 数 42.0000.… 
000024 (当然 ， 这 里 只 是 给 出 了 一 些 对 偶数 的 概念 ) 。 内 存 中 的 对 偶数 


表示 为 一 对 浮 点 数 。 例 如 ，42+24€ 表 示 为 浮 点 数 对 (42.0，24.0) 。 
如 方程 D-3 所 示 ， 对 偶数 可 以 进行 加 法 、 乘 法 等 运算 。 
方程 D-3: 对 偶数 的 几 个 操作 

A(a+bé€) = Aa+tAbE 


(a+bE)+(ctd€) = (atc) +(b+d)E 





(a+bE) x(ctd€) =ac+t(ad+be) E+(bd) Ee =ac+t(ad+be) € 





最 重要 的 是 ， 可 以 证 明 h (atb€) =h (a) +bxh' (a) E， 所 以 在 给 
定 h (a) 和 h' (a) 的 情况 下 ， 计 算 h (a+€) 易如反掌 。 图 D-2? 显 示 了 正 
序 模式 自动 微分 如 何 计算 f(x，y) 在 x=3 和 y=4 关 于 x 的 偏 导 。 我 们 只 需 
计算 f(3+€，4) ; 它 将 输出 一 个 对 偶数 ， 其 第 一 个 分 量 是 f (3，4) ， 


Y (3, 4) 
二 Rs 
第 二 个 分 量 是 ar @, 人。 





42+24 


人 4)=42 
df (34)=24 
36+ 24 6 dX 
9+6e+B ) 











和 1 
atbe (£2=0) 
存储 为 一 对 浮 点 数 (a, b)， 例 如 
对 偶数 (42.0，24.0)， 而 不 是 42.00024 
图 D-2: 正 序 模式 自动 微分 


为 了 计算 四 信 候 又 需要 使 用 图 ， 但 是 这 次 的 参数 为 x=3; y= 四 蜂 


所 以 ， 正 序 模式 微分 比 数值 微分 更 加 准确 ， 但 存在 同样 的 缺陷 ;如 
果 函 数 有 1000 个 参数 ， 需 要 1000 次 人 志 历 图 求 得 所 有 人 微分。 这 也 是 反 厅 模 
式 目 动 微分 的 优势 ， 只 需 志 历 图 两 次 即 可 。 


肥 序 模式 自动 微分 


反 序 模式 目 动 微分 是 TensorFlow 使 用 的 解雇 方案 。 它 首先 正 同 过 历 
图 的 每 一 个 节点 〈 即 ， 从 输入 到 输出 ) 。 然 后 反 辐 壳 历 第 二 次 〈 即 ， 从 
答 出 到 输入 ) ， 就 可 以 计算 出 所 有 的 偏 导 。 图 D-3 表 示 了 第 二 次 遍历 。 
第 一 次 遍历 期 间 ， 计 算出 当 x=3 且 y=4 时 所 有 节点 的 值 。 可 以 在 节点 的 右 
下 角 看 到 这 些 值 〈 例 如 ，xxx=9) 。 为 了 清晰 起 见 ， 节 点 被 标记 为 nj 到 














Nn7o 输出 节点 是 ny: f (3， 4) =n7=42。 






fign. = flon, x anon 
=1x1=1 


AM = MOn, * n/n 
=1x1=1 










lgn, = flan, x ons/on , 
=1X n, =4 
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on, = dflon; x dns/dn, 





n 要 0 
\ My= on, + Non,= 1 +9=10 


(1) 人 
bx = nix4 + nx4 = 24 





图 D-3: 肥 序 模式 上 自动 微分 
其 想法 是 逐渐 网 下 通 历 该 图 ， 计 算 f (x，y) 在 每 个 连续 市 点 的 偏 


AD 


导 。 为 此 ， 反 序 模式 自动 微分 严重 依赖 于 链 式 规则 ， 如 公式 D-4 所 示 。 
公式 D-4: 链 式 规则 


of _ df om 
OX on, wi 
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现在 来 处 理 n4: 当 nm4 变 化 时 ，f 的 取 值 会 怎样 ? 管 案 是 ?%。 和 m4 


Ons 


= 二 可 
o 因为 nc=n4xn>， 我 们 发 现 Gna ， 所 以 
该 过 程 一 直 持续 到 我 们 到 达 图 的 底部 。 那 时 候 ， 我 们 已 经 计算 出 
站 
f(x，y) 在 当 x=3 和 y=4 时 所 有 的 偏 导 。 本 例 中 ,， 加”, 加”, 


0 
日 下 
竺 过 完 ! 


反 序 模式 目 动 微分 是 一 种 强大 且 高 效 的 技术 ， 特 别 是 当 输入 较 多 ， 
输出 较 少 时 ， 因 为 它 仅 需要 一 次 正 同 过 历 和 一 次 反 回 思 有 历 就 可 以 输出 其 
输入 对 应 的 所 有 仿 导 。 更 重要 的 是 ， 它 可 以 处 理 使 用 任意 代码 定义 的 函 
0 它 也 可 以 处 理 不 完全 可 微 的 函数 ， 只 要 你 要 求 它 在 可 微 点 计算 偏 导 
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全 如果 在 TensorFlow 中 实现 一 种 新 类 型 操作 ， 并 希望 它 兼 容 自动 
微分 ， 则 需要 提供 一 个 函数 来 生成 子 图 以 计算 其 对 应 于 输入 的 偏 导 。 例 
如 ， 你 实现 的 函数 是 计算 输入 的 评分 : f(x〉 =x*。 在 这 种 情况 下 ， 你 
需要 提供 该 函数 的 导数 函数 f(x) =2x。 注 意 ， 此 函数 不 生成 数字 结 
果 ， 而 是 生成 一 个 〈 稍 后 ) 计算 结 采 的 子 图 。 这 非常 有 用 ， 它 意味 着 你 
可 以 计算 梯度 的 梯度 《来 计算 二 阶 导数 ， 甚 至 高 阶 导数 ) 。 


附录 E ”其 他 流行 的 ANN 架 构 


本 附录 主要 介绍 一 些 历 史上 重要 的 神经 网 络 架 构 ， 与 多 层 感知 器 
( 见 第 10 章 ) 、 卷 积 神经 网 络 〈 见 第 13 章 ) 、 循 环 神经 网 络 〈 见 第 14 
章 ) 或 者 自动 编码 器 〈 见 第 15 章 ) 相 比 ， 这 些 架构 使 用 得 比较 少 。 它 们 
在 很 多 文献 中 有 提 到 ， 并 在 许多 应 用 中 使 用 ， 所 以 值得 学 习 。 此 外 ， 我 
们 将 讨论 深度 置信 网 络 (DBN) ， 直 到 21 世 纪 初 ， 它 仍 是 深度 学 习 里 的 
艺术 状态 。 它 们 仍 是 非常 活跃 的 研究 主题 ， 很 可 能 在 不 久 的 将 来 重新 流 
1 


Hopfield 网 络 





Hopfield 网 络 于 1974 年 第 一 次 被 W.A.Little 提 出 ， 随 后 由 J.Hopfield 在 
1982 年 推广 开 。 它 们 是 联想 记忆 网 络 : 首先 教 它们 一 些 模式 ， 然 后 当 它 
们 遇见 新 模式 时 就 会 输出 最 接近 该 模式 的 已 学 习 模 式 。 再 被 其 他 方法 超 
过 之 前 ， 该 方法 对 特征 识别 特别 有 用 。 首 先 通过 显示 特征 图 像 示 例 来 训 
练 网 络 〈 每 个 二 进 制 像素 映射 到 一 个 神经 元 ) ， 然 后 当 显 示 一 个 新 特征 
图 像 后 ， 经 过 几 轮 迭代 ， 它 会 输出 最 接近 的 已 学 习 特 征 图 像 。 


它们 是 全 连接 图 〈 见 图 E-1) ， 每 个 神经 元 连接 到 其 他 神经 元 。 注 
意 ， 图 中 的 图 像 是 6x6 像 和 水， 所 以 左边 的 神经 网 络 应 该 包含 36 个 神经 元 
人 
和 网络。 


训练 算法 使 用 Hebb 规 则 工作 : 对 每 个 训练 图 像 ， 如 果 啊 应 的 像素 都 
开局 或 关闭， 则 两 个 神经 元 之 间 的 权重 增加 ， 但 是 如 果 一 个 像素 开局 而 
另 一 个 关闭 ， 则 减 小 。 


要 加 网 络 显示 一 个 新 图 像 ， 需 要 激活 与 激活 像素 对 应 的 神经 元 即 
可 。 然 后 ， 网 络 会 计算 每 个 神经 元 的 输出 ， 并 给 出 一 个 新 图 像 。 接 看 ， 
可 以 使 用 这 个 新 图 像 ， 并 重复 整个 过 程 。 一 段 时 间 后 ， 网 络 进 入 一 个 新 
的 稳定 状态 。 一 般 来 说 ， 这 对 应 于 最 接近 输入 图 像 的 训练 图 像 。 
































图 E-1: Hopfiled 网 络 


能 量 函数 与 Hopfiled 网 络 相关 联 。 在 每 个 迭代 中 ， 能 量 减 小 ， 所 以 
网 络 保证 最 终 稳定 在 低能 量 状态 。 训 练 方法 以 减 小 训练 模式 的 能 量 等 级 
的 方式 来 调整 权重 ， 所 以 网 络 稳定 在 这 些 低能 量 结构 之 一 中 。 不 六 的 
是 ， 一 些 不 在 训练 集中 的 模式 也 以 低能 量 模式 终止 ， 所 以 网 络 有 时候 会 
稳定 在 没有 学 到 东西 的 结构 中 。 这 被 称 为 虚假 模式 。 


Hopfiled 网 络 另 一 个 主要 缺陷 是 它 不 能 很 好 地 被 扩展 。 它 们 的 内 存 
容量 大 约 等 于 神经 元 数量 的 14%。 例 如 ， 要 分 类 28x28 个 图 像 ， 需 要 一 
个 有 784 个 全 连接 神经 元 和 306936 个 权重 的 Hopfiled 网 络 。 访 网络 仅 能 学 
人 











玻 尔 效 曼 机 


玻 尔 效 曼 机 是 Geoffrey Hinton 和 Terrence Sejnowski 在 1985 年 发 明 
的 。 与 Hopfiled 网 络 类 似 ， 它 们 是 全 连接 的 ANN， 但 是 基于 随机 神经 
元 : 这 些 神 经 元 以 某 些 概率 输出 1， 其 他 输出 0， 而 不 是 使 用 一 个 确定 的 
步 又 函数 决定 输出 值 。 这 些 ANN 使 用 的 概率 函数 基于 玻 尔 效 曼 分布 〈 用 
于 统计 力学 ) ， 并 以 此 得 名 。 公 式 E-1 给 出 了 特定 神经 元 输出 1 的 概率 。 


公式 E-1: 第 i 个 神经 元 输出 1 的 概率 


(next step) Wa 1 
p(s Sj 王浆 | 是 
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-5 是 第 j 个 神经 元 的 状态 〈0 或 1) 。 





Wi, j 是 第 i 个 神经 元 和 第 j 个 神经 元 之 间 的 权重 。 注 意 wi，i=0。 

b; 是 第 i 个 神经 元 的 偏差 项 。 可 以 通过 在 神经 网 络 添加 一 个 偏差 神 
经 元 来 实现 。 

.N 是 网 络 中 神经 网 络 的 数量 。 


:TT 是 一 个 被 称 为 网 络 温度 的 数字 ; 温度 越 高 ， 输 出 越 随机 〈 即 ， 概 
率 接 近 50%) 。 
.GO 是 逻辑 函数 。 


玻 尔 兹 曼 机 里 的 神经 元 被 分 为 两 组 : 可 见 单元 和 隐藏 单元 〈 见 图 E- 
2) 。 所 有 的 神经 元 都 以 相同 的 随机 方式 工作 ， 但 是 可 见 单 元 是 接收 输 
入 并 从 中 读 取 输出 的 单元 。 











可 由 间 元 :及 








图 E-2: 玻 尔 效 曼 机 


由 于 其 随机 性 ， 玻 尔 效 曼 机 永远 不 会 稳定 在 一 个 固定 结构 ， 而 是 保 
持 在 许多 结构 之 间 切 换 。 如 果 运 行 了 足够 长 的 时 间 ， 观 察 特 定 结构 的 概 
率 将 至 少 连接 权重 和 侦 差 项 的 图 数 ， 而 不 是 原始 结构 《类似 地 ， 将 一 副 
纸牌 洗 牌 足够 长 时 间 后 ， 则 这 副 牌 的 顺序 将 与 原始 状态 无 天) 。 当 网 络 
到 达 一 个 原始 结构 “ 筷 记 ?了 的 状态 ， 就 处 于 热平衡 状态 《尽管 其 结构 仍 
然 在 改变 ) 。 通 过 适当 地 设置 网 络 参数 ， 使 网 络 达到 热平衡 状态 ， 然 后 
观察 状态 ， 束 可 以 模拟 各 种 概率 分 布 。 这 被 称 为 生成 模型 。 


训练 玻 尔 兹 曼 机 意味 着 找到 使 得 网 络 接 近 训 练 集合 概率 分 布 的 参 
数 。 例 如 ， 如 果 有 三 个 可 见 神 经 元 ， 且 训练 集 包 含 75% 的 (0，1，1) 
三 元 组 ，10% 的 《0，0，1) 三 元 组 ， 以 及 15% 的 (1，1，1) 三 元 组 ， 
在 训练 玻 尔 兹 曼 机 后 ， 可 以 用 它 来 生成 具有 大 至 相同 的 概率 分 布 的 随机 
二 进 制 三 元 组 。 例 如 ， 大 约 75% 的 时 间 会 输出 (0，1，1) 三 元 组 。 


这 种 生成 模式 可 以 以 各 种 方式 使 用 。 例 如 ， 如 果 用 于 训练 图 像 ， 并 
问 网 络 提供 不 完整 或 嘲 杂 的 图 像 ， 则 会 以 合理 的 方式 自动 “修复 图像。 
可 以 使 用 生成 模型 进行 分 类 。 只 需 添加 一 些 可 见 神经 元 来 编码 训练 图 像 
的 类 【例如 ， 当 训练 图 像 表 示 5 时 ， 添 加 10 个 可 见 神经 元 ， 并 打开 第 5 个 
神经 元 ) 。 然 后 ， 当 给 出 一 个 新 图 像 时 ， 网 络 会 自动 打开 适当 的 可 见 神 
经 元 ， 表 示 图 像 的 类 《〈 例 如， 如 果 图 像 表 示 5， 则 打开 第 五 个 可 见 神经 
































pr 
不 笠 的 是 ， 没 有 有 效 的 技术 来 训练 玻 尔 效 曼 机 。 然 而 ， 已 经 开发 出 


相对 有 效 的 算法 来 训练 受 限 玻 尔 效 曼 机 (restricted Boltzmann 
machines, RBM) 。 
受 限 玻 尔 北 曼 机 





RBM 是 简化 的 玻 尔 兹 曼 机 ， 其 可 见 单元 或 隐藏 单元 之 间 没 有 连 
接 ， 只 在 可 见 单元 和 隐藏 单元 之 间 有 连接 。 例 如 ， 图 E-3 表 示 了 一 个 有 
三 个 可 见 单元 和 四 个 隐藏 单元 的 RBM。 























图 E-3: 受 限 玻 尔 兹 曼 机 


一 个 被 称 为 对 比 散 度 (Contrastive Divergence) 的 有 效 训 练 算法 于 
2005 年 被 Miguel A.Carreira-Perpifiin 和 Geoffrey Hinton 提 出 
《http://goo.g/ZCP6IrY) 。 出 以 下 是 它 的 工作 原理 : 对 每 个 训练 实例 x， 
网 络 。 之 后 通过 应 用 随机 方程 〈 见 方程 E-1) 来 计算 隐藏 单元 状态 。 得 
到 隐藏 问 量 h (hj 等 于 第 i 个 单元 的 状态 ) 。 接 下 来 通过 相同 的 随机 方程 
计算 可 见 单元 的 状态 。 得 出 向 量 X。 然 后 再 一 次 计算 隐藏 层 的 状态 ， 得 
出 向 量 h。 现 在 ， 可 以 通过 方程 E-2 中 的 规则 更 新 每 个 连接 权重 。 


方程 E-2: 对 比 散 度 权重 更 新 











(next step ) 下 td ) 

i = w, +n(Xh -xh 

该 算法 最 大 的 好 处 是 不 需要 等 待 网 络 到 达 热 平衡 : 它 只 前 进 ， 后 
退 ， 再 前 进 。 这 使 得 它 比 之 前 的 算法 更 加 高 效 ， 它 是 基于 多 个 栈 式 
RBM 的 深 虐 学 习 第 一 次 成 功 的 关键 因素 。 
深度 置信 网 


RBM 的 多 层 可 以 堆 琶 ;第 一 层 RBM 的 隐藏 单元 可 以 是 第 二 层 RBM 
的 可 见 单元 ， 等 等 。 这 种 RBM 堆 又 被 称 为 深度 置信 网 (Deep Belief 
Nets, DBN) 。 














Geoffrey Hinton 的 学 生 Yee-Whye Teh 发 现 使 用 对 比 散 度 可 以 一 次 训 
练 一 层 DBN， 从 低层 开始 ， 逐 渐 移 动 到 顶层 。 该 发 现 导致 了 引发 机 器 学 
习 海 啸 的 突破 性 文章 于 2006 年 发 表 (http:/goo.gUVBcZQrH) 。 铂 


与 RBM 相 似 ，DBN 学 会 在 没有 任何 监督 的 情况 下 ， 重 现 其 输入 的 
分 布 概率 。 然 而 ，DBN 性 能 更 好 ， 原 因 同 样 是 深度 神经 网 络 比 浅 的 更 强 
大 : 真实 世界 中 的 数据 通常 是 以 层次 模式 组 织 的 ，DBN 利 用 了 这 一 扩 。 
它们 的 低层 学 习 输 入 数据 中 的 低层 特征 ， 同 时 高 层 学 习 高 层 特征 。 


与 RBM 类 似 ，DBN 基 本 上 是 无 监督 的 ， 但 是 仍然 可 以 通过 添加 一 
些 可 见 单元 代表 标签 来 以 有 监督 的 方式 训练 它们 。 此 外 ，DBN 的 一 个 重 
要 特征 是 它们 可 以 以 半 监 督 的 方式 进行 训练 。 图 E-4 表 示 了 为 半 监 督学 
习 配置 的 DBN。 
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图 E-4: 为 半 监 督 配置 的 深度 置信 网 络 


首先 ，RBM 1 在 无 监督 的 情况 下 被 训练 。 它 学 习 训练 数据 中 的 低层 
特征 。 然 后 RBM 2 使 用 RBM 1 的 隐藏 单元 作为 输入 进行 训练 ， 还 是 无 监 
督 的 : 它 学 习 高 层 特征 (注意 ，RBM 2 的 隐藏 单元 仅 包括 最 右边 的 三 个 
单元 ， 没 有 标记 单元 ) 。 还 有 几 个 RBM 以 这 种 方式 被 堆 车 ， 你 已 经 知 
道 方法 ， 此 处 不 再 殉 述 。 到 目前 为 止 ， 训 练 是 100% 无 监督 的 。 


最 后 ，RBM 3 使 用 RBM 2 的 隐藏 单元 作为 输入 ， 可 见 单元 表示 目标 
标签 〈 例 如 ， 单 向 向 量 代表 实例 类 ) 。 它 学 习 使 用 训练 标签 关联 高 层 特 


征 。 该 步骤 是 有 监督 的 。 


在 训练 结束 时 ， 如 果 将 RBM 1 传 到 一 个 新 实例 ， 信 号 将 传播 到 RBM 
2， 然 后 到 顶层 的 RBM 3， 最 后 回 到 标签 单元 ;如 果 顺 利 的 话 ， 适 当 的 
标签 会 被 点 亮 。 这 是 如 何 将 DBN 用 于 分 类 的 例子 。 


这 种 半 监 督 方式 的 很 大 好 处 是 不 需要 太 多 标记 的 训练 数据 。 如 果 无 
监督 的 RBM 做 得 足够 好 ， 那 么 每 个 类 只 需要 少量 标记 的 训练 数据 。 类 
似 地 ， 公 儿 在 无 监督 情况 下 学 习 识 别 物体 ， 所 以 当 你 指 着 椅子 说 “ 椅 

















子 " 时 ， 婴 儿 可 以 把 "椅子 ”这 个 词 和 他 已 经 学 会 识别 的 物体 联系 起 来 。 
你 不 需要 指 着 每 个 椅子 说 它 是 “椅子 ”， 只 需要 几 个 例子 就 够 了 〈 只 要 中 
儿 可 以 确定 你 指 的 是 椅子 ， 而 不 是 椅子 的 颜色 或 椅子 的 一 部 分 ) 。 


令 人 惊讶 的 是 ，DBN 也 可 以 反 向 工作 。 如 果 激 活 其 中 一 个 标签 单 
元 ， 信 号 将 传播 到 RBM 3 的 隐藏 单元 ， 然 后 到 RBM 2， 最 后 到 RBM 1， 
并 且 RBM 1 的 可 见 单元 会 输出 一 个 新 实例 。 该 新 实例 通常 看 起 来 和 激活 
的 标签 单元 类 似 。DBN 的 这 种 生成 能 力 是 十 分 强大 的 。 例 如 ， 它 已 经 被 
用 于 自动 生成 图 像 字 幕 ， 反 之 亦 然 : 首先 ，DBN 被 训练 〈 无 监督 ) 来 学 
习 图 像 特 征 ， 另 一 个 DBN 被 训练 来 学 习 字 幕 中 的 特征 〈 例 如 , “car” 通 
和 常 和 “automobile” 一 起 出 现 ) 。 然 后 ， 一 个 RBM 堆 羞 在 两 个 DBN 的 顶 
部 ， 并 用 一 组 图 像 及 其 字幕 进行 训练 ， 它 学 习 将 图 像 中 的 高 层 特征 与 字 
幕 中 的 高 层 特征 相关 联 。 接 下 来 ， 如 果 传 给 图 像 DNB 一 个 汽车 图 像 ， 信 
号 将 通过 网 络 传播 ， 直 到 最 高 的 RBM， 并 返回 底部 的 字幕 DBN， 产 生 
字幕 。 由 于 RBM 和 DBN 的 随机 性 ， 字 幕 会 随机 变化 ， 但 一 般 都 适合 于 
图 像 。 各 果 生 成 数 百 个 字 硕 ， 那 么 生成 最 频繁 的 字 各 可 能 是 图 像 绞 好 的 
描述 。 己 


目 组 织 映 射 


目 组 织 映 射 《SOM) 与 迄今 为 止 我 们 所 讨论 的 所 有 其 他 类 型 的 神经 
网 络 部 有 很 大 不 同 。 它 们 用 于 生产 高 维 数据 集 的 低 维 表示 ， 通 常用 于 可 
视 化 、 率 类 或 分 类 。 如 图 E-5 所 示 ， 和 神经 元 分 布 在 一 张 二 维 图 上 〈 通 首 
二 维 用 于 可 视 化 ， 但 可 以 是 任意 数量 的 维度 ) ， 并 且 每 个 神经 元 对 每 个 
输入 都 有 一 个 加 权 连 接 注意 图 中 只 显示 两 个 输入 ， 但 通常 输入 数量 很 
大 ， 因 为 SOM 的 所 有 扣 部 用 于 降低 维度 〉。 






































图 E-5: 自 组 织 映 射 


一 旦 网 络 被 训练 ， 可 以 传 给 它 一 个 新 实例 ， 这 将 只 激活 一 个 神经 元 
〈 即 ， 图 上 的 一 个 点 ) : 其 权重 向 量 最 接近 输入 的 神经 元 。 一 般 情况 
下 ， 原 始 输 入 空间 附近 的 实例 将 激活 图 附近 的 神经 元 。 这 使 得 OM 可 以 
用 于 可 视 化 (特别 是 ， 可 以 轻松 识别 图 上 的 集群 ，》， 还 可 以 用 于 语音 识 
别 等 应 用 。 例 如 ， 如 果 每 个 实例 表示 人 类 发 音 的 音频 记录 ， 则 元 
首 “a” 的 不 同 发 首 将 激活 图 中 相同 区 域 的 神经 元 ， 而 元 首 “e” 的 发 首 将 激 
活 劝 一 区 域 的 神经 元 ， 中 间 声 音 通 闻 激活 图 中 间 的 神经 元 。 











全 5 第 8 章 讨论 的 其 他 降 维 技术 不 同 它 的 所 有 实例 都 映射 到 低 维 
空间 中 离散 的 点 《每 个 神经 元 一 个 点 ) 。 当 神经 元 很 少时 ， 该 技术 更 应 
该 称 为 聚 类 而 不 是 降 维 。 


训练 算法 是 无 监督 的 。 它 通过 使 所 有 神经 元 相互 竞争 而 起 作用 。 首 
先 ， 所 有 权重 被 随机 初始 化 。 然 后 随机 挑选 一 个 训练 实例 ， 并 传 到 网 
络 。 所 有 神经 元 计算 它们 的 权重 和 输入 向 量 权重 之 间 的 距离 (这 与 我 们 
迄今 为 止 看 到 的 人 造 神 经 元 非常 不 同 ) 。 与 其 距离 最 小 的 神经 元 胜出 ， 
并 调整 其 权重 向量 使 其 更 接近 输入 向 量 ， 使 其 能 够 万 得 未 来 类 似 于 该 输 
入 的 其 他 输入 。 它 也 拉拢 其 他 相 邻 神经 元 ， 更 新 它们 的 权重 癌 量 使 其 稍 
微 接近 输入 回 量 (但 是 不 会 像 胜 者 那样 更 新 它们 的 权重 〉。 然 后 算法 选 














择 另 一 个 训练 实例 ， 并 不 断 重 复 该 过 程 。 该 算法 倾 问 使 附近 神经 元 逐渐 
具有 相 类 的 似 输入 。 多 


[1] “On Contrastive Divergence Learning”, M.A.Carreira-Perpiiiin 和 
G.Hinton (2005) 。 

[2| “A Fast Learning Algorithm for Deep Belief Nets”, G.Hinton, S. 
Osindero, Y.Teh (2006) 。 

[3] 有 关 详 细 信 息 和 演示 ， 请 参见 视频 http://goo.g1/7Z5QiS。 

[4] 想象 一 个 技能 大 致 相同 的 幼儿 班 。 一 个 孩子 在 篮球 上 好 一 点 。 这 促 
使 她 会 去 做 更 多 的 练习 ， 尤 其 是 和 她 的 朋友 一 起 练习 。 一 段 时 间 以 后 ， 
这 和 群 小 朋友 都 变 得 擅长 篮球 ， 远 胜 于 其 他 小 朋友 。 但 是 没关系 ， 其 他 小 
朋友 有 其 他 的 兴趣 。 这 样 ， 一 段 时 间 后 ， 这 个 班级 就 充满 了 各 种 兴趣 小 
组 。 
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封面 介绍 


本 书 封面 上 动物 是 中 东 地 区 发 现 的 一 种 两 栖 动物 ， 远 东 火 蜥 蝎 
(Salamandra infraimmaculata) 。 它 们 有 黑色 的 皮肤 ， 背 部 和 头 部 有 很 
大 的 黄色 斑点 。 这 个 斑点 是 防止 捕食 者 的 警告 色 。 蜥 蝎 的 长 度 可 达 一 英 
尺 ( 约 30.48 厘 米 ) 。 


远东 火 蜥 蝎 生 活 在 亚热带 灌木 林地 和 靠近 河流 或 其 他 淡水 资源 的 森 
林 中 。 它 们 大 部 分 时 间 都 在 陆地 上 ， 但 是 会 把 它们 的 蛋 产 在 水 里 。 它 们 
主要 以 昆虫 、 蠕 虫 和 小 型 甲 沈 动物 为 食 ， 侦 尔 也 吃 其 他 蜥 蝎 。 己 知 此 物 
种 雄性 平均 寿命 长 达 23 年 ， 肉 性 达 21 年 。 


尽管 尚未 濒临 天 绝 ， 但 远东 火 蜥 蝎 的 数量 在 不 断 下 降 。 其 生存 的 主 
要 威胁 包括 阻 竖 河流 《扰乱 蜥 蝎 的 楷 殖 ) 和 污染 。 它 们 也 受到 最 近 引 入 
的 杖 食性 鱼 类 的 威胁 ， 如 食 蚊 鱼 。 引 入 这 种 鱼 的 目的 是 控制 蚁 子 的 数 
量 ， 但 是 它们 也 吃 蜥 蝎 幼 妃 。 


O'Reilly 封 面 上 的 许多 动物 都 受到 威胁 ;所 有 这 些 动物 对 世界 都 很 
重要 。 想 了 解 更 多 如 何 帮 助 它们 的 方法 ， 请 访问 animals.oreilly.com。 


该 封面 图 片 来 自 Wood's Illustrated Natural History。 
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